任何一项数据中心停机趋势调查都无法揭示,企业应采取哪些措施来增加正常运行时间。但数据是有关停机原因以及企业如何降低风险的最新、最详细的信息之一,结论显而易见,总体停机率正在下降,这可能是因为增加了对冗余的投资,尽管人为错误仍然是一个主要威胁。
数据中心停机次数正在减少,而对现场备份系统的投资是主要原因。这是对数据中心停机的最新研究得出的结论。继续阅读,深入了解今年数据中心停机趋势,以及对其对数据中心弹性和恢复计划的意义的分析。
报告的主要发现包括:
与之前的报告相比,每个设施的停机总数有所减少。从绝对数字来看,停机次数有所增加,但这是因为现在的数据中心比过去多。
55%的组织报告称,过去三年内经历过数据中心停机。然而,只有27%经历过停电的组织将其视为“重大”、“严重”或“危急”的停电。这意味着总体而言,过去三年内,只有不到15%的企业遭遇过严重的停电事故。
电源和冷却系统故障是数据中心停电的最常见原因,约占所有停电的71%。大约一半的数据中心重大停机是由人为错误造成的,而与这一趋势相关的人为错误类型中,工作人员未能遵循程序位居首位。
网络攻击是数据中心停机的一个微不足道的原因,仅占所有此类事件的1%。值得注意的是,该研究调查了影响整个数据中心设施的停机原因,而不是单个工作负载的停机。如果调查的是后者,网络攻击可能会成为更重要的因素。
根据研究发现,数据中心停机频率下降的主要原因是企业为其设施投资了冗余系统。超过三分之一的受访者表示,他们增加了电力和冷却系统的冗余度。
数据表明,在每个数据中心建立冗余,而不是构建多个数据中心并在它们之间分配工作负载,是提高整体正常运行时间的最佳方式。这种趋势与多站点方法将破坏昂贵的物理站点冗余策略的预期背道而驰。
报告也没有详细说明近年来多站点战略的投资变化情况。站点的平均数量也有所增加,这可能是停机率降低的一个因素。
然而,不可否认的事实是,越来越多的企业正在投资冗余,并且这种趋势与停电减少之间至少存在着一定的相关关系。
总体而言,该报告表明,截至2024年,以下是提高数据中心可用性和降低停机风险的成功策略:
投资冗余电源和冷却系统(记住上一节讨论的注意事项)。
部署高级弹性解决方案,例如在停机期间自动转移网络流量和工作负载的软件。这种方法可以降低停机风险及其相关影响,尽管停机次数可能会暂时增加,因为企业可能需要时间来了解新软件的复杂性。
不要将网络安全作为防止数据中心停机的关键策略。保护单个工作负载当然很重要,但数据显示,网络攻击很少会导致整个数据中心瘫痪。
投资培训数据中心技术人员,和/或使用自主工具实现流程自动化,以降低因人为错误造成停机的风险。
任何一项数据中心停机趋势调查都无法揭示,企业应采取哪些措施来增加正常运行时间。但数据是有关停机原因以及企业如何降低风险的最新、最详细的信息之一,结论显而易见,总体停机率正在下降,这可能是因为增加了对冗余的投资,尽管人为错误仍然是一个主要威胁。