1、硬件、软件和设施问题可能导致服务器故障。使用正确的协议和预防性维护,组织可以减少故障数量并排除故障。
服务中断是一个影响所有组织类型和规模的常见问题,服务中断可能包括数天,系统不能访问关键业务数据。这样会导致操作问题,服务中断和维护费用。
服务器硬件、软件或数据中心设备可能是导致故障的潜在原因。若组织知道可能造成服务器故障的原因,就可以避免出现问题,避免出现故障,也完全避免了停机;但如果服务器确实发生故障,最好制定应急计划。
2、什么会导致服务器发生故障?
在接收到警报或发现故障时,解决服务器故障的第一步是确定服务器故障的方式和原因;组织操作的速度可以根据停机时间、分钟和天来加以区分,通常包括:
•过热。若服务器温度过高,可能会导致性能下降或完全失效。
•硬件问题。硬件组件有时候会被破坏。其原因可以是实际部件的故障,如电池或磁盘故障、冷却系统故障或设备寿命。
•软件问题。由于高流量操作,过时的操作系统可能会崩溃,未检查的补丁程序可能导致错误或数据损坏。软体更新与升级也会失败并引起新的问题。
•系统过载。高峰期和完整的服务器日志都会导致系统负载过重和发生故障。
•网络攻击。网络安全性不足或过时的不受支持的操作系统可能会使服务器容易受网络攻击的攻击,这些攻击可能会使服务器瘫痪或崩溃。
•自然灾害。地震、火灾、洪水和雷暴雨可能对网络系统造成严重破坏,并导致服务中断。
如何防止常见服务器故障
企业对这些信号看得越清楚,就能越快采取行动。伺服器监控软体可以帮助组织维持伺服器状态,密切监控主要系统,并获取任何潜在问题的警告。
在监控工具集之外,还需要执行预防性维护步骤,以确保服务器的正常运行和健康。
1.确保最佳环境温度。服务器保持适当的通风和温度控制,避免物理机过热。要内部和外部表面上是否积有灰尘,继续根据需要调整温度设置。
2.进行日常维护。硬件问题最难预测和预防的,它们具有随机性。时间到了,需要完全更换陈旧的零件或机器。
3.定期安装更新。定期安装软件,操作系统更新和补丁。
4.严格访问控制和详细的事件日志。自动化可以最大程度地减少人为错误,但是仍然需要人为干涉。用于降低风险,需要严格记录哪些人可以访问服务器机房和管理软件。公司需要保留详细的事件日志并规律性的对其进行检查。
5.监视性能趋势。使用连续的性能监控检查,组织可以更好地预测高峰期间的资源需求,并确定性能低下,这可能表明即将出现故障。这些趋势还可能揭示潜在的硬件和软件问题或需要额外散热的服务器机房区域。确保维护日志文件,清空回收站,删除临时文件夹中的文件,以及对硬盘驱动器任务进行碎片整理,以保持性能水平并避免系统过载。
6.制定服务器应急计划。冗余用于防止服务器故障导致停机的做准备。服务器应急计划应包含可用的辅助硬件,例如多个电源、冗余内存和备份服务器。
7.设计灾难和数据恢复计划。一旦出现了自然灾害或安全漏洞,灾难恢复计划和数据恢复计划将使公司规避过长的停机和灾难性的数据遗失。对于最坏的情况,制定备份计划至关重要。
即使服务器进行了预防性维护,即使服务器出现故障,也可以采取一些步骤有效地进行恢复。除了重新启动之外,还可以使用可视提示和诊断软件来缩小可能原因的范围。
一旦确定了根本原因,就可以切换到备份服务器,并采取必要的步骤修复电脑故障