中国上海

卓越运营:确保数据中心的无缝性能

2024 年 10 月 7 日

撰稿人徐婷婷,查尤拉市场总监

在上一篇文章中 端到端数据中心建设:从蓝图到现实 Tina Tsui、 查约拉 市场总监讨论了端到端数据中心建设从设计到运营所面临的挑战和解决方案。EdgeConneX 与 Chayora 的战略合作伙伴关系为 EdgeConneX 数据中心提供以下服务 北京上海中国最大的两个市场。在这篇报道中,徐女士将重点介绍维持高性能数据中心所需的运营策略。徐女士 Tina Tsui 头像解释了有效运营对于保持效率和防止业务中断的重要性。通过卓越的运营,企业可以最大限度地减少人为失误,确保数据中心的稳定性和可靠性,而数据中心是数字化转型的支柱。 请阅读下文,了解她的深入看法: 

谁来承担数据中心故障的成本?

在当今的数字化时代,数据中心已成为企业和组织的重要基础设施。它们存储、处理和保护大量数据,支持各种应用和服务。然而,数据中心的运营也面临着诸多挑战,例如如何最大限度地减少停机时间。

停机会扰乱业务运营,造成经济损失,并损害公司声誉。根据 根据美国正常运行时间研究所(Uptime Institute)的调查,全球每年发生 10 到 20 起重大数据中心故障事件,造成重大的经济和声誉损失。超过一半的受访运营商表示,他们最近一次严重故障的成本超过 100,000 美元1. 

避免中断是数字基础设施运营商的首要任务,这凸显了卓越运营的重要性。数据中心可以通过顶级运营实现高效、可靠和安全的性能,为运营商提供稳定的数字基础设施支持,降低运营成本,提高经济效益。

为了尽可能防止中断,专家们努力确保数据中心运营的各个方面都做到精益求精,以提高恢复能力。这包括使用不间断电源(UPS)系统作为后备电源,使用具有冗余路径的多样化光纤布线、备用发电机和冗余服务器设计,以确保在电源、网络或硬件故障时能够持续提供服务。

这些措施大大提高了数据中心的可用性和恢复能力,使其能够为用户提供不间断的可靠服务。然而,即使是优化设计也只能部分防止数据中心故障。正常运行时间研究所的《2023 年年度故障分析》报告显示,人为错误仍然是造成数据中心故障的一个重要原因2.

人为错误:数据中心的致命弱点

数据中心容纳了大量服务器、存储设备和网络设备,这些设备需要人工监控、配置和维护,以确保正常运行和效率。鉴于这些设备的规模和复杂性,人为错误几乎不可避免。这些错误可能包括

  • 网络、服务器或存储设备配置不正确。
  • 操作失误包括意外关闭关键设备或进行不当维护。
  • 软件更新或补丁管理不当。
  • 由于操作疏忽造成的安全漏洞。

作为数据中心的管理者和维护者,运营商有责任确保设备和基础设施的正常运行,同时防止因维护或配置错误造成的中断。这就要求对设备状态进行实时监控、定期检查、维护冷却和供电系统等关键基础设施,并进行细致的变更管理,以确保所有维护工作都经过周密计划、测试和验证。

正常运行时间研究所的报告还指出,许多与人为错误有关的事故都是由于员工不遵守程序或程序错误造成的3.从 2019 年到 2022 年,大多数管理人员和操作人员都表示,更好的管理和流程可以减轻停机的影响。

卓越运营:业务连续性的高分答案

查尤拉上海DC效果图
Chayora 上海数据中心

实现卓越运营并最大限度地减少人为错误对数据中心的稳定性至关重要。这包括主动监控、人才培养和外部认证,以降低人为失误造成中断的可能性。让我们来探讨一下这三项措施的意义:

1.主动监控:数据中心需要全面、主动的监控系统来实时跟踪网络性能、供电、温度、湿度和安全等关键参数。这有助于及早发现潜在问题并采取预防措施,将故障的影响降至最低。在人工智能和大型语言模型快速发展的背景下,集成人工智能功能可进一步提高监控系统的自动化和智能化水平。

2.人才培养:拥有合格的人才并提供持续的培训和发展机会对数据中心的高效运营至关重要。数据中心需要技术熟练的专业人员来维护和管理设施,因此必须科学地匹配团队结构与运营需求,确保有足够的专业知识来应对复杂的技术挑战。根据美国正常运行时间协会(Uptime Institute)的说法,训练有素的员工和经过周密计划和演练的程序对于减少故障和最大限度地节约成本至关重要。

3.外部认证:获得相关行业认证,如 Uptime Institute 的设计、建设和运营认证,可为数据中心的合规性、可靠性和安全性提供客观、权威的证明。外部认证通常涉及对系统、流程、控制、安全措施和灾难恢复能力的审计,帮助数据中心识别和纠正现有问题或潜在风险,建立高效的管理系统,提高风险意识。

Chayora 通过主动监控、人才培训和外部认证实现卓越运营。他们的运营团队由来自全球科技公司和公共云巨头的专家组成,提供本地和远程服务支持。Chayora 的 360 度集中管理系统通过智能管理将运营效率提高了 15%,赢得了业界和客户的认可和赞誉。在第十一届数据中心标准大会上,该系统荣获中国工程建设标准化协会颁发的 "数据中心成就奖"。Chayora 天津园区的客户在感谢信中强调,Chayora 的卓越运营服务符合安全和可靠性的高标准,同时提供敏捷和灵活的运营,实现了两年零故障,并主动预测客户需求。

卓越运营对于提高数据中心效率和服务质量、降低成本、增强竞争力、实现可持续发展至关重要。卓越运营可以提升个人能力、团队协作和创新能力,确保数据中心的安全和稳定,更好地应对不断变化的安全威胁和运营挑战,为数字化和智能化发展提供强有力的支持。

在 "IDC 观察 "系列中,我们分析了数字经济和高计算能力背景下数据中心的新趋势和优化解决方案。

面对时代的发展和挑战,Chayora 相信,通过不断增强数据中心的弹性和适应性,数据中心能够满足日益数字化、智能化和绿色化的时代需求。未来,Chayora 将与时俱进,为大家带来更多关于数据中心的精彩观点,并在接下来的系列报道中介绍更多与高密度定制化数据中心相关的话题。敬请期待!

点击此处阅读 Chayora IDC 系列:

脚注

1. 美国正常运行时间研究所 2024 年年度故障分析

2.美国正常运行时间研究所 2023 年年度故障分析

3.美国正常运行时间研究所 2023 年年度故障分析