二进制代码和数据可视化的抽象数字插图

人工智能世界中的 "量体裁衣"--密度

2025 年 9 月 4 日

在继续我们的 "构建适应人工智能世界"系列之际,让我们来探讨人工智能部署如何比传统云或企业部署更加密集,以及它们如何推动数据中心设计发生重大转变。从 2011 年到 2020 年,在人工智能兴起之前平均机架密度 从 2.4 kW 上升到 8.4 kW。当前一代英伟达™(NVIDIA®)GPU架构Blackwell的设计目标是 每个机架120千瓦每机架 41 千瓦 一代(Hopper)的 41 千瓦。架构还在继续密集化;今年 3 月,英伟达公司首席执行官黄仁勋宣布了到 2027 年底实现 600 千瓦机架的路线图。

人工智能部署之所以如此密集,是因为用于训练人工智能模型的 GPU 比用于传统工作负载的 CPU 更耗电。将处理器保持在一起可以扩大集群规模,而更大的集群规模则可以建立更强大的模型。(了解更多 根据位置构建.)

独创性徽标,量身定制,专为人工智能设计在这种密度下,人工智能部署产生的热量过高,空气冷却无法处理;它们需要液体冷却。与此同时,目前大多数支持人工智能的数据中心也支持传统工作负载,而传统工作负载的密度要低得多,可以有效地使用空气冷却。因此,数据中心需要同时支持风冷和液冷。鉴于人工智能的发展和应用还处于初期阶段,未来还会有很多创新,密度很可能会继续上升。数据中心需要能够支持当前的密度,并能灵活地支持未来的密度。 

根据密度要求建造

菲利普-马兰盖拉人工智能数据中心不仅设计不同,运营方式也不同。 提供人工智能数据中心解决方案涉及技术、实施和日常执行。我们提供的人工智能数据中心产品、 独创性我们拥有行业领先的 SOP、MOP 和 EOP,以确保提供一流的体验。作为我们的首席营销和产品官 菲利普-马兰盖拉 中解释的 一篇文章 在谈到为人工智能时代调整数据中心基础设施时,他说:"在我们从空气冷却过渡到液体冷却的过程中,我们还完全重新配置了操作程序、培训和准备工作,以确保为人工智能/高性能计算部署提供安全、可靠和可持续的环境。"  

现代数据中心需要同时支持高密度人工智能工作负载和低密度传统工作负载。 Ingenuity 可以灵活地支持从 10 千瓦到超过 500 千瓦的机架密度。Ingenuity可适应GPU、CPU、存储和网络的各种功率密度和冷却要求,支持专用的人工智能工作负载以及混合工作负载,所有这些都在同一个数据中心内完成。我们可以灵活地平衡同一数据大厅内的不同 IT 负载,利用内置热存储实现持续冷却能力。

为支持当前的人工智能工作负载而构建的数据中心也需要灵活地支持未来的人工智能工作负载。作为英伟达 DGX 的认证合作伙伴,我们与芯片制造商密切合作,确保我们的技术解决方案能够支持未来几代人工智能芯片的电源和冷却要求。我们的人工智能数据中心就像电路中的背板,是人工智能部署运行的基础。这种设计非常灵活,可支持各种冷却技术,并可随着人工智能架构的发展,以经济高效的方式支持未来的密度。

数据中心必须是可持续的,即使其电力需求不断增长。人工智能既带来了挑战,也带来了机遇。挑战包括人工智能和高性能计算对更高功率密度的技术要求;机遇包括人工智能技术的快速增长和采用。在应对这些挑战和机遇的同时,我们将继续致力于通过我们的 可持续发展战略从短期和长期来看。例如,我们针对高密度应用的高效冷却设计有助于优化能源使用效率(PUE)。

底线

与人工智能工作负载相关的密度迅速上升,推动了数据中心设计方式的重大转变。要想取得成功,就需要开发人员致力于卓越运营和可持续发展,其设计要足够灵活,既能支持高密度的人工智能工作负载,也能支持低密度的传统工作负载,以及随着人工智能的发展而出现的未来工作负载。像 EdgeConneX 这样的开发商。

前情提要 人工智能世界中的 "量体裁衣系列: