发表于:2014/9/26 15:50:26
#0楼
死机是工控机故 障中较为常见的一种,同时它也是最令人头疼的一种。只有解决了死机,才能保证工控机高可靠性和实时性的性能发挥。工控机死机故障好象很可怕,但其故障原因 永远也脱离不了硬件与软件这两方面。
一、在正常使用的情况下偶尔出现死机故障且日益频繁,或突然出现死机故障后就频繁出现。
1.1 灰尘过多引发死机故障
一台新工控机在国内的一般车站运转室使用一年左右后,其内部就会有很多灰尘了,如果进入到某个板卡的插槽中就可能引起该板卡接触不良而出现死机或其它故障,而且常是无故死机。
另 外,机器内灰尘过多就会对某些重要工控机硬件设备的散热问题造成坏的影响,CPU和显卡等重要硬件如果散热不良自然就会引起蓝屏或花屏或定格或黑屏死机故 障,此类死机现象虽然通常并没有什么规律可言,但使用时间越长其死机次数就越频繁。如果软驱磁头或光驱激光头上的灰尘过多的话,那么就会会导致读写盘困 难,严重的就会引起工控机蓝屏死机。
对策:一定要交代录波器用户一年对工控机进行一次彻底除尘,当然,如果对工控机结构不是很懂的话的话,就要找一个懂计算机的人来操作,以免造成其它故障。平时经常保持工控机运行环境的洁净也是一个非常不错的措施。
1.2 某硬件的散热不良而导致死机故障
CPU、 显卡、硬盘、电源等硬件在工作中发热量都是非常大的,好在它们多数都拥有自己的散热风扇,所以通常并不会因此而发生死机现象,但如果风扇上的灰尘过多或润 滑不良或磨损严重或严重老化的话,那么这些硬件设备的散热就存在问题了,久而久之,随着情况的不断恶化,就会出现在开机使用一段时间后频繁死机或重启的现 象。
对策:一定要提醒用户定期检查一下工控机中各风扇的工作状态并定期为其进行润滑(建议使用缝纫机油)或者更换以避免此类故障。如果已经 出现了每次使用都会频繁死机故障的话,也不要着急,只要打开机箱并在工控机运行时观察一下哪个风扇有异常(如噪音很大或转速明显减慢或停转等)或哪个硬件 温度异常(如用手一摸某芯片或散热片非常烫手等),然后再做相应的处理就可以了。
1.3 内存中存在冲突导致死机故障
这一情 况在同时运行多个软件时比较容易出现,虽然有时候同时运行很多软件一切正常,但有时却忽然间莫名其妙地死机了,重新启动后再运行这些应用程序时又已十分正 常了,其实这些故障中有很多只是假死机现象,其原因多是内存资源发生了冲突——应用软件是在内存中运行的,但有些应用软件由于设计方面的原因会和另一软件 同时使用同一块内存地址,这时就会出现冲突。此类死机现象通常是定格死机或重启或蓝屏或提示非法操作或失去响应。
对策:对于此类故障只能避免而不能根除——即尽量不要让很多程序同时运行,避免用户安装使用一些不明来源的软件。
1.4 接插件接触不良引起死机现象
此类故障比较好判别,因为无论运行多么小型的程序都有可能会死机,甚至有时在启动时就定格死机,而有时长时间运行大型程序也不会死机。
对策:此类故障的故障点还是非常好找的,通常您只要把所有能拔下来的东西(如网卡和电源插头等)都拔下来做清洁再插上去就可以了,当然,如果有哪里生锈了的话,您要先除锈或将这个生锈的部件换新。
1.5 内存条故障导致的死机故障
由于内存条的工作频率越来越高,其发热量也随之升高,而稳定性也就要相对差一些了,通常内存条故障是指内存条松动、虚焊或内存芯片本身损坏或不稳定等。
对 策:如果工控内存插槽上插着着两个不同规格的内存,最好去掉一个,使用两个不同规格的内存也会导致死机。如果您在WINDOWS操作系统中经常出现与内存 有关的非法操作等死机现象或直接提示注册表出错而重新启动机器的话,那么我们就要先检查一下是不是内存条松动或有灰尘进行入到了内存插槽内,如果未发现异 常您就要换一下内存条试试了,如果一切正常了那就说明内存条本身可能存在故障了。
1.6 硬盘剩余空间太少或磁盘碎片太多导致死机故障
由 于一些大型应用程序运行时需要大量的内存,如果物理内存不足就需要使用硬盘上的虚拟内存,此时如果硬盘的剩余空间太少的话,那么就有可能会引起死机现象。 另外,如果工控机长时间没有整理硬盘碎片的话也会使系统资源紧张而死机,当然,如果硬盘中的垃圾文件过多的话,也会造成硬盘寻找文件的困难而造成死机现 象。此类故障的表现也是比较特殊的——通常都是在硬盘连续疯狂进行读、写盘操作时会突然定格或蓝屏死机。当然,NTFS磁盘文件格式会产生较少的磁盘碎 片。
对策:系统盘一定要使用NTFS磁盘文件格式,最好是把虚拟内存设置到剩余空间比较大的分区中,而且要定期清理各种垃圾文件和定期整理磁盘碎片。
1.7 硬盘故障导致死机故障
如果硬盘严重老化或在运行中受到震动或出现逻辑、物理坏道或出现坏扇区的话,那么工控机在运行时就很容易发生频繁死机故障。
对策:最好是更换硬盘,如果只是逻辑错误的话还是可以用各种修复软件进行修复的。由于有些此类故障的故障点并不是很容易就能发现的,所以如果进行磁盘扫描程序,也会排除此类故障。
1.8 劣质配件导致死机故障
此类故障多是由于使用了品质不良的板卡引起的,如果运行什么大型程序都死机的话,就要考虑更换一下电源试试了,这是一个不容忽视的问题。工控机内安装有大量的板卡,耗电很厉害,如果电源容量不足,很容易出问题。
对策:在出厂调试时一定要严格测试,以免日后出现问题。
1.9 随机启动的程序太多导致死机故障
此 类死机故障比较特殊,因为这可谓是名符其实的无故死机。现场调试时,就是去喝个水的功夫来操作工控机就会造成死机、在关机时也可能会出现死机,不过好在此 类死机故障并不会出现在启动时,所以还是比较好判断的。有人说此类故障只是在内存比较小的工控机中才会出现,但在实际维修中笔者发现在大内存的工控机上一 样会出现,因为系统资源是多方面的(除内存资源外还包括缓存、GUI、CPU等资源),CPU和硬盘等也会因此而受不了的。
对策:解决方法 也很简单,除了必需的数据库和录波分析软件,不要随机启动其他的任何程序。另外,如果桌面上的图标过多或打开的窗口过多的话同样会出现无故死机故障,所以 这一点一定也要注意避免,桌面上的图标和快速启动栏中的图标越少越好,其它的快捷方式您可放入到开始菜单中,通常开始菜单是没有什么限制的。
二、在进行了某种操作或发生某突发事件后,就频繁出现死机故障。
2.1 在对BIOS设置进行了修改后出现死机故障
有时运行人员为了提高系统的性能往往对硬盘参数设置、模式设置、内存参数、CPU参数等设置进行了某些错误的设置,轻则系统变得不稳定而频繁死机,重则根本就进入不了WINDOWS系统了,更有甚者干脆就开不了机了。
对 策:对于无法再开机的工控机来说通常只要清除BIOS设置就行了,在BIOS里选择Load fail-safe Defaults(最低性能)或者Loadoptimized Defaults(最高性能);对于在进入WINDOWS时就死机或经常要求您进入安全模式,这时就要查看一下BIOS中有关硬盘和CPU的设置了,另 外,如果将没有ECC功能的内存的ECC功能打开的话同样会因内存错误而造成死机,这时可做相应的修改或干脆恢复默认值。
2.2 在添加安装完某硬件或更新某硬件的驱动程序后出现频繁死机故障
对 于第一类情况来说,通常是发生了设备冲突问题,如中断、DMA、端口、I/O等出现冲突。对于第二类情况来说,所安装的硬件驱动程序有兼容性问题。可能是 这个硬件设备新安装的驱动程序因和另一个设备的驱动程序存在冲突、新驱动程序本身存在问题、新驱动程序与系统的某个文件存在版本冲突;安装了别的操作系统 下的驱动程序(比如把FOR xp的驱动安装到了2000操作系统中)以致于发生死机故障。
对策:由于引发该故障的可能性非常多,所以要做 相应的解决方法,比如:以安全模式启动,然后在设备管理器中进行相应的查看和设置。或者卸载这个驱动,安装经过微软认证的驱动程序。安装后在硬件驱动程序 版本里边有数字签名程序:Microsoft Windows Hardware Compatibility Publisher字样。
2.3 在安装完某个软件后只要运行某软件或使用某硬件时就会出现死机现象
所安装的软件有兼容性问题(例如:可能是测试版本),和其他软件或者这个版本的操作系统有冲突。例如某些个人版软件不适合安装在服务器版操作系统上,强行安装会出现此类问题。
对 策:卸载导致蓝屏的软件,或者安装该软件和操作系统兼容性好的版本。通常是在安装了某个对系统要求非常严格的软件后才会出现此类故障。最好不要安装这个软 件。如果必须要安装,可以试试使用其它的非测试版本,兼容性好的同类软件。当然,有一些软件是因为本身的某个重要文件已损坏才会导致死机现象,该类情况多 见于以前使用正常,但经过一个突发事件后就出现问题了的机器上,这时只要卸载该软件并重新安装一次就可以了。
2.4 对操作系统进行了某项设置后就频繁出现死机故障
对操作系统进行了某项错误的设置后经常会出现死机故障,比如把虚拟内存的大小设置得过小也会导致在运行大型程序时死机。由于此类故障原因非常好查找——检查虚拟内存时改为让Windows 管理也就可以了。
对策:出厂时必须把硬盘的休眠功能关闭;在电源管理里边把能造成硬盘关闭的电源使用方案全部删除。工控机大部分时间工作在不经常读、写硬盘的情况下,这样的设置有时也会造成数据上传时硬盘停止响应而死机。
2.5 在升级更新操作系统后或更换大容量硬盘后,因内存容量不够而导致死机故障
Windows 2000 和大容量的硬盘对物理内存都有更高的要求,如果内存容量不够大的话,就会因此而发生死机故障,而且该死机现象通常是没有什么规律的,通常表现多是蓝屏死机。
对策:在理论上内存容量应不小于硬盘容量的0.3~1%,如果内存容量不能达到这个比例的话,需要把内存进行相应的扩容。
2.6 人为地把某动态链接库文件、系统的初始化文件、系统文件误删除后导致系统死机或无法启动
扩 展名为DLL的文件就是动态链接库文件,在Windows操作系统中它的作用是非常重要的,这些文件从性质上来讲是属于共享类文件——即一个DLL文件可 能会有多个软件在运行时需要调用它;Windows 2000系统在启动时需要有boot.ini和一些虚拟设备驱动等文件,如果这些文件被误删除或遭破坏的话,那么您就进不了Windows了。
对策:使用Ghost恢复或者重新安装系统。
2.7 因非正常关闭工控机而导致死机故障
这里所说的非法关机主要是指直接关闭电源而不用WINDOWS自动关机,通常一次非法关机不会造成太大的危害,但如果长期非法关机就有可能造成系统文件损坏或丢失,引起在启动、运行中、关机时出现定格,蓝屏等死机故障。
对 策:对于Windows操作系统来说这点非常重要,所以只要告诉值班人员正确关机就不会导致此类故障了。另外,有时这种非法关机还会造成硬盘出现逻辑错误 而频繁出现死机,不过好在非法关机后系统会自动进行磁盘扫描,但有些人会将其跳过不让系统进行自动检查,交代值班人员不要这么做,不然如果出现逻辑坏道时 就要后悔了。
2.8 使用病毒实时监控软件或防火墙后导致系统经常死机
已经发现个人版的杀毒软件安装在Windows 2000 Server上便会导致系统不稳定。
对策:如果需要此类软件,请安装经过测试的企业版杀毒软件。
2.9 因感染了计算机病毒而导致了死机故障
有些病毒可以使计算机工作效率和系统资源急剧下降而造成频繁死机。
对策:对于这一种故障,最好是在系统正常时把操作系统所在分区进行镜像备份,到中毒后只要还原一下就行了。
一、在正常使用的情况下偶尔出现死机故障且日益频繁,或突然出现死机故障后就频繁出现。
1.1 灰尘过多引发死机故障
一台新工控机在国内的一般车站运转室使用一年左右后,其内部就会有很多灰尘了,如果进入到某个板卡的插槽中就可能引起该板卡接触不良而出现死机或其它故障,而且常是无故死机。
另 外,机器内灰尘过多就会对某些重要工控机硬件设备的散热问题造成坏的影响,CPU和显卡等重要硬件如果散热不良自然就会引起蓝屏或花屏或定格或黑屏死机故 障,此类死机现象虽然通常并没有什么规律可言,但使用时间越长其死机次数就越频繁。如果软驱磁头或光驱激光头上的灰尘过多的话,那么就会会导致读写盘困 难,严重的就会引起工控机蓝屏死机。
对策:一定要交代录波器用户一年对工控机进行一次彻底除尘,当然,如果对工控机结构不是很懂的话的话,就要找一个懂计算机的人来操作,以免造成其它故障。平时经常保持工控机运行环境的洁净也是一个非常不错的措施。
1.2 某硬件的散热不良而导致死机故障
CPU、 显卡、硬盘、电源等硬件在工作中发热量都是非常大的,好在它们多数都拥有自己的散热风扇,所以通常并不会因此而发生死机现象,但如果风扇上的灰尘过多或润 滑不良或磨损严重或严重老化的话,那么这些硬件设备的散热就存在问题了,久而久之,随着情况的不断恶化,就会出现在开机使用一段时间后频繁死机或重启的现 象。
对策:一定要提醒用户定期检查一下工控机中各风扇的工作状态并定期为其进行润滑(建议使用缝纫机油)或者更换以避免此类故障。如果已经 出现了每次使用都会频繁死机故障的话,也不要着急,只要打开机箱并在工控机运行时观察一下哪个风扇有异常(如噪音很大或转速明显减慢或停转等)或哪个硬件 温度异常(如用手一摸某芯片或散热片非常烫手等),然后再做相应的处理就可以了。
1.3 内存中存在冲突导致死机故障
这一情 况在同时运行多个软件时比较容易出现,虽然有时候同时运行很多软件一切正常,但有时却忽然间莫名其妙地死机了,重新启动后再运行这些应用程序时又已十分正 常了,其实这些故障中有很多只是假死机现象,其原因多是内存资源发生了冲突——应用软件是在内存中运行的,但有些应用软件由于设计方面的原因会和另一软件 同时使用同一块内存地址,这时就会出现冲突。此类死机现象通常是定格死机或重启或蓝屏或提示非法操作或失去响应。
对策:对于此类故障只能避免而不能根除——即尽量不要让很多程序同时运行,避免用户安装使用一些不明来源的软件。
1.4 接插件接触不良引起死机现象
此类故障比较好判别,因为无论运行多么小型的程序都有可能会死机,甚至有时在启动时就定格死机,而有时长时间运行大型程序也不会死机。
对策:此类故障的故障点还是非常好找的,通常您只要把所有能拔下来的东西(如网卡和电源插头等)都拔下来做清洁再插上去就可以了,当然,如果有哪里生锈了的话,您要先除锈或将这个生锈的部件换新。
1.5 内存条故障导致的死机故障
由于内存条的工作频率越来越高,其发热量也随之升高,而稳定性也就要相对差一些了,通常内存条故障是指内存条松动、虚焊或内存芯片本身损坏或不稳定等。
对 策:如果工控内存插槽上插着着两个不同规格的内存,最好去掉一个,使用两个不同规格的内存也会导致死机。如果您在WINDOWS操作系统中经常出现与内存 有关的非法操作等死机现象或直接提示注册表出错而重新启动机器的话,那么我们就要先检查一下是不是内存条松动或有灰尘进行入到了内存插槽内,如果未发现异 常您就要换一下内存条试试了,如果一切正常了那就说明内存条本身可能存在故障了。
1.6 硬盘剩余空间太少或磁盘碎片太多导致死机故障
由 于一些大型应用程序运行时需要大量的内存,如果物理内存不足就需要使用硬盘上的虚拟内存,此时如果硬盘的剩余空间太少的话,那么就有可能会引起死机现象。 另外,如果工控机长时间没有整理硬盘碎片的话也会使系统资源紧张而死机,当然,如果硬盘中的垃圾文件过多的话,也会造成硬盘寻找文件的困难而造成死机现 象。此类故障的表现也是比较特殊的——通常都是在硬盘连续疯狂进行读、写盘操作时会突然定格或蓝屏死机。当然,NTFS磁盘文件格式会产生较少的磁盘碎 片。
对策:系统盘一定要使用NTFS磁盘文件格式,最好是把虚拟内存设置到剩余空间比较大的分区中,而且要定期清理各种垃圾文件和定期整理磁盘碎片。
1.7 硬盘故障导致死机故障
如果硬盘严重老化或在运行中受到震动或出现逻辑、物理坏道或出现坏扇区的话,那么工控机在运行时就很容易发生频繁死机故障。
对策:最好是更换硬盘,如果只是逻辑错误的话还是可以用各种修复软件进行修复的。由于有些此类故障的故障点并不是很容易就能发现的,所以如果进行磁盘扫描程序,也会排除此类故障。
1.8 劣质配件导致死机故障
此类故障多是由于使用了品质不良的板卡引起的,如果运行什么大型程序都死机的话,就要考虑更换一下电源试试了,这是一个不容忽视的问题。工控机内安装有大量的板卡,耗电很厉害,如果电源容量不足,很容易出问题。
对策:在出厂调试时一定要严格测试,以免日后出现问题。
1.9 随机启动的程序太多导致死机故障
此 类死机故障比较特殊,因为这可谓是名符其实的无故死机。现场调试时,就是去喝个水的功夫来操作工控机就会造成死机、在关机时也可能会出现死机,不过好在此 类死机故障并不会出现在启动时,所以还是比较好判断的。有人说此类故障只是在内存比较小的工控机中才会出现,但在实际维修中笔者发现在大内存的工控机上一 样会出现,因为系统资源是多方面的(除内存资源外还包括缓存、GUI、CPU等资源),CPU和硬盘等也会因此而受不了的。
对策:解决方法 也很简单,除了必需的数据库和录波分析软件,不要随机启动其他的任何程序。另外,如果桌面上的图标过多或打开的窗口过多的话同样会出现无故死机故障,所以 这一点一定也要注意避免,桌面上的图标和快速启动栏中的图标越少越好,其它的快捷方式您可放入到开始菜单中,通常开始菜单是没有什么限制的。
二、在进行了某种操作或发生某突发事件后,就频繁出现死机故障。
2.1 在对BIOS设置进行了修改后出现死机故障
有时运行人员为了提高系统的性能往往对硬盘参数设置、模式设置、内存参数、CPU参数等设置进行了某些错误的设置,轻则系统变得不稳定而频繁死机,重则根本就进入不了WINDOWS系统了,更有甚者干脆就开不了机了。
对 策:对于无法再开机的工控机来说通常只要清除BIOS设置就行了,在BIOS里选择Load fail-safe Defaults(最低性能)或者Loadoptimized Defaults(最高性能);对于在进入WINDOWS时就死机或经常要求您进入安全模式,这时就要查看一下BIOS中有关硬盘和CPU的设置了,另 外,如果将没有ECC功能的内存的ECC功能打开的话同样会因内存错误而造成死机,这时可做相应的修改或干脆恢复默认值。
2.2 在添加安装完某硬件或更新某硬件的驱动程序后出现频繁死机故障
对 于第一类情况来说,通常是发生了设备冲突问题,如中断、DMA、端口、I/O等出现冲突。对于第二类情况来说,所安装的硬件驱动程序有兼容性问题。可能是 这个硬件设备新安装的驱动程序因和另一个设备的驱动程序存在冲突、新驱动程序本身存在问题、新驱动程序与系统的某个文件存在版本冲突;安装了别的操作系统 下的驱动程序(比如把FOR xp的驱动安装到了2000操作系统中)以致于发生死机故障。
对策:由于引发该故障的可能性非常多,所以要做 相应的解决方法,比如:以安全模式启动,然后在设备管理器中进行相应的查看和设置。或者卸载这个驱动,安装经过微软认证的驱动程序。安装后在硬件驱动程序 版本里边有数字签名程序:Microsoft Windows Hardware Compatibility Publisher字样。
2.3 在安装完某个软件后只要运行某软件或使用某硬件时就会出现死机现象
所安装的软件有兼容性问题(例如:可能是测试版本),和其他软件或者这个版本的操作系统有冲突。例如某些个人版软件不适合安装在服务器版操作系统上,强行安装会出现此类问题。
对 策:卸载导致蓝屏的软件,或者安装该软件和操作系统兼容性好的版本。通常是在安装了某个对系统要求非常严格的软件后才会出现此类故障。最好不要安装这个软 件。如果必须要安装,可以试试使用其它的非测试版本,兼容性好的同类软件。当然,有一些软件是因为本身的某个重要文件已损坏才会导致死机现象,该类情况多 见于以前使用正常,但经过一个突发事件后就出现问题了的机器上,这时只要卸载该软件并重新安装一次就可以了。
2.4 对操作系统进行了某项设置后就频繁出现死机故障
对操作系统进行了某项错误的设置后经常会出现死机故障,比如把虚拟内存的大小设置得过小也会导致在运行大型程序时死机。由于此类故障原因非常好查找——检查虚拟内存时改为让Windows 管理也就可以了。
对策:出厂时必须把硬盘的休眠功能关闭;在电源管理里边把能造成硬盘关闭的电源使用方案全部删除。工控机大部分时间工作在不经常读、写硬盘的情况下,这样的设置有时也会造成数据上传时硬盘停止响应而死机。
2.5 在升级更新操作系统后或更换大容量硬盘后,因内存容量不够而导致死机故障
Windows 2000 和大容量的硬盘对物理内存都有更高的要求,如果内存容量不够大的话,就会因此而发生死机故障,而且该死机现象通常是没有什么规律的,通常表现多是蓝屏死机。
对策:在理论上内存容量应不小于硬盘容量的0.3~1%,如果内存容量不能达到这个比例的话,需要把内存进行相应的扩容。
2.6 人为地把某动态链接库文件、系统的初始化文件、系统文件误删除后导致系统死机或无法启动
扩 展名为DLL的文件就是动态链接库文件,在Windows操作系统中它的作用是非常重要的,这些文件从性质上来讲是属于共享类文件——即一个DLL文件可 能会有多个软件在运行时需要调用它;Windows 2000系统在启动时需要有boot.ini和一些虚拟设备驱动等文件,如果这些文件被误删除或遭破坏的话,那么您就进不了Windows了。
对策:使用Ghost恢复或者重新安装系统。
2.7 因非正常关闭工控机而导致死机故障
这里所说的非法关机主要是指直接关闭电源而不用WINDOWS自动关机,通常一次非法关机不会造成太大的危害,但如果长期非法关机就有可能造成系统文件损坏或丢失,引起在启动、运行中、关机时出现定格,蓝屏等死机故障。
对 策:对于Windows操作系统来说这点非常重要,所以只要告诉值班人员正确关机就不会导致此类故障了。另外,有时这种非法关机还会造成硬盘出现逻辑错误 而频繁出现死机,不过好在非法关机后系统会自动进行磁盘扫描,但有些人会将其跳过不让系统进行自动检查,交代值班人员不要这么做,不然如果出现逻辑坏道时 就要后悔了。
2.8 使用病毒实时监控软件或防火墙后导致系统经常死机
已经发现个人版的杀毒软件安装在Windows 2000 Server上便会导致系统不稳定。
对策:如果需要此类软件,请安装经过测试的企业版杀毒软件。
2.9 因感染了计算机病毒而导致了死机故障
有些病毒可以使计算机工作效率和系统资源急剧下降而造成频繁死机。
对策:对于这一种故障,最好是在系统正常时把操作系统所在分区进行镜像备份,到中毒后只要还原一下就行了。
[此贴子已经被san.simon于2014/11/26 14:39:31编辑过]
祁飞科技(www.prafly.com)自主研发生产工控机、工业主板等