重新思考AI处理器的能力

日期:2025-07-11

快速发展为数据中心电力格局带来了独特的挑战

 
作者:OmniOn Power数据中心和电缆部门负责人Vito Savino

人工智能(AI)、机器学习(ML)和大型语言模型(LLM)的持续发展正在推动全球对更复杂和功率优化的数据中心的需求。高盛(Goldman Sachs)的研究估计,到2030年,数据中心的电力需求将增长160%,这主要是由于这些新兴工具的容量需求。到同一年,电力研究所(EPRI)估计,数据中心可能会增长到美国年发电量的9%,高于2023年总负荷的4%。尽管最近Deepseek的公告可能会抑制这种消费预测,但技术进步的典型模式表明,这些应用的能耗仍将呈上升趋势。
需求的激增给数据中心运营商带来了重大挑战。首先,他们的任务是扩建和升级设施,以满足日益增长的空间需求。他们还在解决大量的电力需求,并确定如何有效地解决高性能硬件产生的热量。用于AI应用程序的图形处理单元(GPU)的快速发展只会增加这些担忧。 
人工智能(AI)、机器学习(ML)和大型语言模型(LLM)的持续发展正在推动全球对更复杂和功率优化的数据中心的需求。高盛(Goldman Sachs)的研究估计,到2030年,数据中心的电力需求将增长160%,这主要是由于这些新兴工具的容量需求。到同一年,电力研究所(EPRI)估计,数据中心可能会增长到美国年发电量的9%,高于2023年总负荷的4%。尽管最近Deepseek的公告可能会抑制这种消费预测,但技术进步的典型模式表明,这些应用的能耗仍将呈上升趋势。
需求的激增给数据中心运营商带来了重大挑战。首先,他们的任务是扩建和升级设施,以满足日益增长的空间需求。他们还在解决大量的电力需求,并确定如何有效地解决高性能硬件产生的热量。用于AI应用程序的图形处理单元(GPU)的快速发展只会增加这些担忧。 
人工智能和GPU实施的众多未知因素促使数据中心运营商重新审视其电源解决方案,以确保系统可靠性和未来的可扩展性。

人工智能处理器及其前所未有的障碍

鉴于GPU在训练AI模型中的关键作用,近年来全球对GPU的需求呈指数级增长。贝恩公司的一份报告发现,如果这种激增以目前的速度继续下去,到2026年,对GPU的需求可能会增加30%或更多。它们对人工智能的发展至关重要,以至于美国已经开始规范它们从国内制造商到国际客户的流动。
虽然更高功率的GPU承诺增强计算能力,但它们需要巨大的功率才能运行。在使用它们的数据中心中,这可能会对从电力可用性到基础设施等各个方面产生下游影响。再加上对更频繁的硬件更新和越来越快速的AI工作负载部署的需求,大规模实施高性能GPU可能会带来一些技术挑战,包括:

不可预测的峰值脉冲和瞬态响应

GPU的峰值脉冲(或峰值功率)是处理器在给定时间点运行所需的最大功率。这些峰值通常发生在处理器的初始启动期间,或者在执行更苛刻的操作(如运行AI或ML算法)时。该峰值的范围可以从GPU典型稳态最大额定功率的1.3倍到GPU典型稳态最高额定功率的2倍,特别是在用于AI的较新GPU的情况下。
管理电涌的快速瞬态响应对于维持AI应用程序GPU的可靠运行至关重要,因为它直接影响了支持实时计算的功率消耗速度。
虽然峰值电涌通常会在短时间内发生,但其确切的时间和持续时间往往未知且难以预测。这种不可预测性为服务器和机架级设备的电源系统设计和优化增加了一层复杂性。

功率密度和功耗增加

随着现代计算对功率、效率和可扩展性的要求越来越高,人们越来越倾向于实施更高电压的IT和电力基础设施,以减少分布式电流,从而降低效率损失(见图1)。
 

1:现代计算需要更高的功率、效率和可扩展性,导致数据中心向更高电压的IT和电力基础设施转变

最近,48V架构已经从美观变为必备,成为大多数人工智能和超大规模应用程序的必备配置,每个机架的平均容量约为150千瓦(kW)。这些较新的机架配置消耗的能量接近高性能计算和超级计算中的水平,通常每机架250-500kW,而高端应用通常使用400V范围内的更高电压。人工智能未来电力需求的不可预测性可能会在不久的将来导致类似的高压架构。
因此,计算能力需求的增加正在推动对主流电源转换解决方案和配电硬件的需求减少,影响了许多数据中心运营商实现“在更小的空间内获得更多电力”的目标。所需的硬件越独特,设置就越复杂,预计会对可用性、部署速度和可靠性产生负面影响。 

热应力和热管理

最新GPU不断增长的功耗需求也给数据中心带来了热挑战。每一代新处理器都可能迫使重新设计冷却和电源架构,以应对潜在的过热问题。目前由人工智能驱动的开发更强大处理器的竞赛大大加速了这一周期。
许多最新的GPU,如NVIDIA的H100,表现出比前几代快5倍的瞬态响应要求。这意味着系统必须能够有效地处理这些需求而不会过热。热管理也不仅仅是处理器特有的问题。如果机架内的多个处理器同时保持峰值功率需求,那么在机架内分配功率的母线可能会过热,并可能导致灾难性故障。
面对快速变化,平衡热效率、成本和性能给数据中心运营商带来了重大挑战。最终将GPU推向其热和功率极限的应用程序将进一步给冷却系统带来压力,解决这些热问题将成为一个持续的循环。

解决数据中心的AI电源问题

其中许多挑战对数据中心来说并不是全新的,但考虑到人工智能实施的速度,这些问题变得越来越普遍。数据中心可以通过以下方式帮助主动解决电源和热管理障碍,而不会阻碍高级AI处理器的使用:

采用更高电压架构

更高的功率要求放大了对提高效率和高压IT和电源设备的需求。400V直流电源架构正在成为48V系统的替代品,因为这些架构能够在数据中心和IT设备之间分配更高的电压。这导致电流降低,需要更少的功率转换降压,从而实现更高效的操作和更少的热量产生。这些架构可以用更少的铜提供更多的电力,减少配电系统的体积,实现更紧凑的设计。
虽然由于可扩展性问题,48V系统可能难以适应不断增长的工作负载,但400V架构可以支持更高的计算能力,而不需要对电源基础设施进行全面检修。随着时间的推移,它们还提供了更具成本效益的解决方案,因为兼容性、效率和安全性的好处为现代数据中心创造了长期优势。

制定数据中心位置和足迹的战略

在某些方面,确保数据中心能够在人工智能工作负载下运行类似于在房地产市场中导航——这一切都与规模和位置有关。随着数据中心的建设或重组以支持更强大的人工智能系统,其位置和建设能够支持其电力需求至关重要。在建设新的数据中心时,选择当地电网能够满足当前(和未来)容量需求的位置至关重要。如果没有足够的能源基础设施,就无法保证项目能够不受干扰地运行。
对于希望升级其能力以支持人工智能的现有数据中心,运营商可能希望专注于选择有利的硬件和系统架构。找到将能源和它们供电的机架之间的电压降降至最低的方法可以创造长期效益和效率提升。利用更先进的硅技术也有助于创建更可持续的架构,因为较新的处理器在运行过程中每次计算消耗的能量和损失更少。

优化冷却解决方案

保持数据中心设备的冷却对于避免故障和损坏至关重要,而当今计算和电力需求的增加只会使热管理变得更加困难。这意味着数据中心冷却系统可能需要进行重大升级。传统的基于空气的冷却方法可能无法有效减轻高级处理器和超大规模应用程序产生的热量。高端GPU已经采用直接芯片液体冷却和热管进行冷却(见图2)。机架式电源和板载DC/DC转换器可能很快就会需要这些方法。拥有大量IT硬件(包括高性能GPU)的不断增长的数据中心比传统数据中心产生更多的热量,而且它们的规模和容量只会继续增长,以跟上日益增长的人工智能和超级计算需求。
 

2:先进的液体冷却系统有助于提高数据中心的性能和效率
 
数据中心正在探索创新和可扩展的冷却解决方案来应对这些挑战,包括浸液冷却等方法。液浸冷却是一种小众但越来越受欢迎的解决方案,它是通过将设备完全或部分浸入介电流体中来调节温度的过程,有助于将热量从硬件转移到流体中进行分散。此过程可以帮助降低通常与冷却相关的能耗,并可以帮助数据中心将更多的计算能力装入更小的空间。其他热管理解决方案包括更大的散热器、改进的气流管理以及为相邻服务器机架供电的专用电源机架,所有这些都有助于最大限度地降低过热的风险。
在追求更好的人工智能和机器学习实现的过程中,数据中心不能以速度的名义牺牲可持续性,这一点很重要。为人工智能工作负载建设和优化数据中心的意图越强,运营商就越不可能面临过热、容量不足或无法应对不可预测的需求激增的后果。
通过采取积极主动的方法来缓解这些挑战,对GPU和其他先进AI处理器的投资可以为数据中心运营商的长期效率和未来的可扩展性带来回报。
www.omnionpower.com
 

订阅我们的通讯!

电子邮件地址