将GaN 和液冷技术相结合,提升AI 数据中心能效
日期:2024-07-06
实现解决方案的协同效应,自然减少功率损耗并提高投资回报率
作者: 英飞凌战略营销副总裁Paul Wiener;应用业务开发总监Julian Styles
由于生成式AI和其他新兴技术的激增,数据中心行业正处于十字路口,面临着前所未有的转型挑战。这种激增极大地增加了服务器的功耗,给世界各地的数据中心带来压力。根据多个模型,数据中心已占全球能源需求的约 2% [1],到 2030 年,需求量将增加至 7%。为了跟上步伐,数据中心需要依赖各个层面的创新,包括冷却解决方案、氮化镓 (GaN) 等宽带隙 (WBG) 半导体以及高效的稳压器。
在最近举行的 PowerAmerica 会议上,维谛技术 (Vertiv) 首席创新官 Greg Ratcliff 向100多名参会者透露了一个重要的启示。“我们一直在谈论宽带隙半导体的未来,但我们从未提到数据中心内的硬件和电源将采用液冷技术。随着这一变化,电力电子器件的工作温度将大大降低——到那时,GaN功率半导体对我们的未来变得更加重要”。
面对日益增加的能源消耗和热量挑战,我们该怎么办?
现代 GPU 对于加速 AI 和 ML 计算过程至关重要,但它耗电严重并且会产生大量热量。更高的计算负载会导致更高的功率密度要求,从而进一步加剧数据中心的升温。
训练ChatGPT 这样的 AI 模型就需要约 10 GWh [2],大约相当于 1000 个美国家庭一年消耗的能源。这种前期能源成本仅占总能源消耗的一小部分。ChatGPT 查询的平均消耗能量是同类 Google 搜索的 50 到 100 倍。华盛顿大学电气与计算机工程助理教授 Sajjad Moazeni 表示,每天的能源消耗量可达 1 GWh,每天的查询量高达数亿次。这相当于约 33,000 个美国家庭的耗能量,凸显了对数据中心资源日益增长的需求。
因此,数据中心机架功率要求以前保持在 6 至 15 kW 之间,现在平均需要 20 至 40 kW [3],甚至飙升至 200 kW 甚至更高。最大的数据中心产生超过 100 兆瓦 [4] 的能源足以为整个城市供暖。事实上,其中一些数据中心已经做到了。
虽然数据中心的电力需求和密度大幅飙升,但其电力使用效率 (PUE) 却未能跟上。2023 年的一份报告 [5] 发现,自 2018 年以来,全球数据中心的 PUE 水平一直保持相当稳定。如果这种趋势持续下去,到 2030 年,全球数据中心的能源需求可能会达到 2000 TWh时,这将是一个令人震惊的统计数据。
图 1:数据中心预计用电量(2015 – 2030 年)[6]
此外,过热还会导致停电、设备故障,并导致气候变化。因此,冷却是必不可少的,它可能占用数据中心约 40% 的功耗。传统的空气冷却方法很难管理这些高密度机架产生的热量。空气冷却还需要许多额外的工具才能发挥作用,包括冷却器、气泵、电缆以及湿度控制、过滤和备用系统。这迫使运营商转向更高效的冷却技术,而最好的选择之一就是液体冷却技术。
液冷技术
液体的导热性能比空气好一千倍[7],并且能够更有效地捕获服务器产生的热量。这使得数据中心的能耗和运行温度显著降低,从而带来巨大的效益。
2022 年的一项研究发现,即使部分(75%)过渡到液体冷却也可以使设施功耗降低高达 27% [8]。
液冷基础设施也相对更加简单——它不需要冷却器或基于地板的冷却剂分配装置。它也不需要像空气冷却那样多的备用电源。具有讽刺意味的是,液冷最终使用的水也比空气冷却要少。因此,采用液冷技术是满足日益增长的热管理和能效要求的最合理方式。
冷板液体冷却是一种通过将热量直接传递到通过附在发热装置上的冷板循环的液体冷却剂来冷却电子元件的方法。冷板液体冷却是实现局部冷却的有效方法,预计将获得发展势头,并在未来 10 年内快速增长,预计复合年增长率 (CAGR) 为 16%。该技术使数据中心集成商和服务器供应商能够提高性能,同时由于在较低温度下运行而降低冷却功率需求。
但10年后呢? 数据中心是否应该重新进行一切,以尝试提供更多的冷却? 如果有一种方法可以朝另一个方向进行,并从一开始就减少热量的产生呢? 为了长期满足这些需求,数据中心需要解决问题的核心——即产生热量的电源装置和设备。
电源供应问题
要了解问题的另一面,重要的是要考虑电力如何传输到服务器内的目的地,无论是 CPU、GPU 还是任何其他关键组件。许多服务器仍然依赖 AC-DC 转换器:
• 在较高频率下容易出现较高开关损耗
• 在高密度环境中产生热量
• 提供有限的功率密度
由于这些限制,传统转换器的运行效率为 90% 或更低。虽然这看起来值得称赞,但它意味着数据中心内 10% 或更多的能源显著损失。其影响包括成本增加、二氧化碳排放量增加和废热增加。
此外,随着功耗的大幅增加,提高功率密度不再是可选的。由于数据中心旨在增加机架密度以适应更高的能源需求,因此物理空间的有效利用成为一个关键因素。现有的硅基转换器由于其有限的功率密度和较高的功率损耗,最终会占用过多的空间,并且运行效率会产生过多的热量。
GaN 可实现更小、高效且更经济的解决方案
GaN等宽带隙半导体由于具有较大的电子带隙,成为满足当前数据中心高电压、高密度、高频需求的最佳选择。尤其是 GaN,它可以在非常高的开关频率下提供极高的效率,从而实现更小、更紧凑的转换器。更高的开关频率可显著降低开关损耗,从而提高电路效率。
我们已经看到了 GaN 在数据中心市场上产生的影响,服务器制造商能够利用 GaN 电源供应释放出的额外空间来提高存储和数据处理能力。图 2 显示了 GaN 对服务PSU尺寸和效率的影响。它展示了一台功率为 3 kW PSU 的功率密度增加了 2.2 倍,从而以更小的外形尺寸和钛级效率,从而将功率损耗降低 33%。
图 2:GaN 基 PSU 与硅基 PSU 的比较
英飞凌基于 GaN 的 CoolGaN™ 解决方案 [9] 为 PFC 拓扑提供超过 99% 的系统效率,而硅基转换器的效率为 90%。
随着行业不断追求更高的功率以满足AI计算的需求,需要改变拓扑结构。图 3 展示了交错式 PFC、三相谐振 LLC 和同步整流器 (SR),在电源的 PFC 快速桥臂上采用集成 GaN 加驱动器解决方案。PFC 慢腿采用英飞凌 CoolMOS™ 器件,SR 则采用英飞凌 OptiMOS™,这是一种高性能、高效率且经济高效的解决方案,可为人工智能数据中心服务器提供动力。凭借英飞凌全面的解决方案,可行的选择还包括碳化硅 (SiC) 设计,为电源设计人员提供宽带隙半导体的终极设计选择。
图 3:10 kW 及更高功率级别的 AI PSU 框图
即使效率提高 1% 也能显着降低数据中心的能耗,从而带来巨大的节约。基于 GaN 的系统还可以将机架的功率密度提升一倍,从而节省大量昂贵的空间。因此,数据中心每 10 个机架,改用 GaN 技术每年可增加 300 万美元的利润,并减少 100 吨的碳排放[10]。
最终制胜组合:液冷+GaN
理解该组合价值的关键在于回顾 GaN 器件的电阻温度系数行为。随着功率器件的结温 (Tj) 升高,其 RDS(on) 也随之升高。导通电阻会转化为导通损耗,在典型的 AC-DC 转换器中占相当大的损耗比例。
这让我们回到了 Greg Ratcliffe 在 PowerAmerica 提出的观点。在风冷数据中心环境中,电子设备运行温度很高,采用液体冷却来降低服务器和电源装置的工作温度迫在眉睫。
图 4:CoolGaN™ 器件的全球数据中心节能潜力
如图 5 所示,在较低工作温度下,所有功率半导体技术的 RDS(on) 相似,因此 PSU 效率和功率密度的主导因素变成开关损耗。在晶体管器件层面,GaN 具有较低的开关损耗,是所有半导体技术中在较低工作温度下效率最高的。
因此,采用 GaN 液体冷却技术不仅可以显著降低功耗,还可以使电源架能够适应更高的功率密度,避免出现过热的情况。
图5:随着工作温度的降低而提高GaN性能
结论
一方面,传统转换器在能够处理的电压、功率密度和开关频率方面已经达到了一个平台期,而这些问题是人工智能数据中心需要解决的问题。另一方面,运营商需要通过限制热量产生和提高电源效率来降低功耗。
随着科技巨头竞相部署人工智能技术,能源需求激增。AI 电源从 3 kW、5 kW 和 10 kW 增长到 30 kW 甚至更高。这种需求将加剧数据中心的电力挑战,促使运营商探索各种提高效率、密度和环境的方案。
为此,解决方案在于基于 GaN 的设计。
将冷板液冷技术与 GaN 相结合,在较低结温下具有毋庸置疑的优势,为数据中心提供了巨大的机会,可以最大限度地提高效率、满足不断增长的电力需求,并克服服务器发热增加带来的挑战。
参考文献:
[1] The green potential of data centers, Infineon Technologies AG, 访问网站
[2] Q&A: UW researcher discusses just how much energy ChatGPT uses, University of Washington, July 27, 2023, https://www.washington.edu/news/2023/07/27/how-much-energy-does-chatgpt-use/
[3] Addressing the Data Center Power Challenge, EEPower, Sep 17, 2023, https://eepower.com/industry-articles/addressing-the-data-center-power-challenge/
[4] Your data could warm you up this winter, here’s how, World Economic Forum, Aug 8, 2022, https://www.weforum.org/agenda/2022/08/sustainable-data-centre-heating/
[5] New Research Reveals Persistent Array of Data Center Industry Challenges, Data Center Frontier, July 2023, https://www.datacenterfrontier.com/colocation/article/33008641/new-research-reveals-persistent-array-of-data-center-industry-challenges
[6] IEA: https://www.iea.org/energy-system/buildings/data-centres-and-data-transmission-networks, 2023 + Infineon assumption and calculation
[7] Liquid cooling vs. air cooling in the data center, TechTarget, May 03, 2022, https://www.techtarget.com/searchdatacenter/feature/Liquid-cooling-vs-air-cooling-in-the-data-center
[8] Power Usage Effectiveness Analysis of a High-Density Air-Liquid Hybrid Cooled Data Center, ASME 2022 International Technical Conference and Exhibition on Packaging and Integration of Electronic and Photonic Microsystems, Oct 25–27, 2022, https://asmedigitalcollection.asme.org/InterPACK/proceedings-abstract/InterPACK2022/86557/V001T01A014/1153400
[9] GaN transistors (GaN HEMTs), Infineon Technologies AG, 访问网站
[10] GaN: Solving the Dual Challenge of Sustainability and Profitability in the Data Center, Power Systems Design, https://www.powersystemsdesign.com/articles/gan-solving-the-dual-challenge-of-sustainability-and-profitability-in-the-data-center/22/19561
推荐行业新闻更多