解锁超级计算性能

日期:2022-06-10
 
 
模块化电源和创新的体系结构提供了最佳性能
 
作者:Doug Ping,高级首席应用工程师,Vicor
 
计算工作负载的复杂性和多样性不断增加,需要巨大的处理能力。无论是用于云数据中心还是内部部署,新型处理器都能够提高吞吐量并减少延迟。然而,处理器的进步正在推动电力传输的界限。因此,功耗往往限制了获得顶级处理器性能的能力。
 
数据中心按需运行
 
最近的疫情推动了网上购物、流媒体和家庭办公的激增,大型服务和零售提供商也在扩大其能力。然而,为了更全面地了解数据中心的增长,应该将其与其他几个驱动因素相结合。过去十年经历的主要技术驱动趋势包括物联网(IoT)、人工智能(AI)、边缘机器学习(ML)以及操作技术(OT)工作量的指数增长。工业4.0等工业运营绩效改进举措导致了OT部署的急剧增加。这些因素需要更多的计算能力,但它们也导致了更加多样化和苛刻的工作负载。
越来越多的人要求数据中心提供灵活、可扩展的计算基础架构,能够支持高度动态的工作负载,以提供云或内部部署服务。最近趋势要求的一些计算任务的性质包括低延迟、尖峰神经网络算法和搜索加速。专业化和高度优化的处理器件,如现场可编程门阵列(FPGA)、图形处理单元(GPU)和神经处理单元(NPU),曾经很少在数据中心使用,现在已经司空见惯。此外,对于高性能计算任务,还需要一种新的专用集成电路(ASIC),如集群AI神经网络推理引擎。
处理器技术的进步使高性能计算能够扩展任务吞吐量的边界,提供灵活性以适应更多的工作负载多样性。然而,技术进步往往取决于系统的其他方面共同进步。
 
技术趋势提高计算性能,突出了热挑战
 
在半导体行业,变革是不可避免的。一个新的、更小的硅工艺节点一投入生产,下一次迭代就不远了。较小的几何形状允许在给定空间中制造更多的单个半导体栅。虽然65nm和55nm工艺节点仍然常规用于许多集成电路(IC),但诸如ASIC、FPGA、GPU和NPU等高性能计算器件通常基于12nm或更小的工艺节点,7nm和5nm变得越来越流行。客户已经在排队等待使用3nm以下工艺节点的高度复杂的高性能处理器。
通过减小单个栅极的尺寸来增加其密度,突出了管理新处理器热特性的限制。降低栅极工作电压,这一过程称为电压缩放,有助于减少每个晶体管的散热,但对整个封装的热管理仍然至关重要。
通常,高性能处理器将以其最大时钟速率运行,直到热限制要求对其进行限制。对于最复杂的基于5nm工艺节点的器件,电压缩放已经看到核电压下降到0.75V,对于3nm工艺节点,将进一步下降到预计的0.23V。为了使电力传输挑战进一步复杂化,许多器件需要多个不同级别的电压轨,仔细排序以避免永久性损坏。
 
图1:在大规模计算系统中,功率传递和功率效率已成为最大的关注点。随着ASIC和GPU处理复杂AI功能的出现,处理器的功耗急剧增加。随着AI能力在大规模学习和推断应用部署中的使用,机架功率也随之增加。在大多数情况下,随着新CPU消耗不断增加的电流,电源传输现在是计算性能的限制因素。电力输送不仅需要分配电力,还需要效率、尺寸、成本和热性能
由于领先的GPU中通常有数千亿个晶体管,当前的需求变得巨大,达到数百安培。对于集群AI处理器来说,1000A的要求并不少见。当前的趋势是处理器的功耗每两年翻一番(图1)。
向这种耗电器件供电的另一个方面是,它们的工作负载可以在微秒内变化,可能会在整个电力传输网络(PDN)中产生巨大的瞬态。
 
电力输送挑战
 
正如所强调的,半导体工艺技术的进步为PDN带来了一些具有挑战性的条件。然而,并非所有这些都是技术性的。例如,这些前沿处理器件的物理尺寸占据了相当大的可用板空间比例。一个复杂的问题是,电路板空间通常限于行业标准的形状尺寸。
为了进一步加剧对电路板尺寸的限制,高性能计算器件的性质要求支持IC,例如靠近处理器的内存和光收发器。由于电流消耗的急剧增加和核电压的降低,这种方法也适用于负载点(PoL)功率稳压器。PCB跟踪电阻对高电流的影响会产生I2R损耗,可辨别的电压降足以影响处理器性能,或者更糟,导致不稳定的行为。PoL稳压器还需要具有高能效,以防止进一步的热管理并发症。(图2)
空间受限的电路板和在处理器附近安装稳压器的需要相结合,为网络PDN的架构提供了一种新的创新方法。
 
图2:VPD进一步消除了配电损耗和VR PCB板面积消耗。VPD在设计上与Vicor LPD解决方案类似,在电流倍增器或GCM模块中增加了旁路电容的集成
 
为处理器供电:PDN成为限制因素
 
随着处理器技术的不断发展,构建一个高效的PDN为电力系统工程师提出了三个重要且相互关联的挑战。
不断增加的电流密度:领先的高性能处理器可以消耗数百安培的电流。为处理器提供足够的电源能力不仅涉及在何处放置负载点转换器的物理限制,还涉及PCB中的复杂决策,即从边缘连接器将电源路由到转换器。极端动态工作负载导致的高压瞬态可能会干扰其他系统组件。极端动态工作负载导致的高压瞬态可能会干扰其他系统组件。
提高功率效率:影响功率效率的因素有两个:I2R损耗和转换效率。PCB磁道是低压信号和数字逻辑布线的理想选择,但对于大电流,无论多么短,它们都可能代表显著的电阻损耗。这些I2R损耗会降低提供给处理器的电压,并可能导致局部发热。由于处理器卡上有数百个其他组件,电源轨的大小有限制,因此将转换器尽可能靠近处理器是唯一可行的选择。
转换器的功率效率是其设计的一个属性。高效率PoL转换器的开发是一项专业技能,涉及一种迭代方法,需要了解从无源器件到半导体的每个组件的损耗。如前所述,损耗表现为需要散热的热量。PoL转换器模块设计师运用其设计专业知识和专业知识优化模块的内部设计,以实现等温封装。
保持PDN的简单性:面对PDN的挑战,一些电源架构师可能会选择为处理器创建一个分立式PoL转换器,以仔细定制PDN。然而,尽管这可能是一个可行的解决方案,但它实际上会增加复杂性。分立式设计增加了物料清单(BOM),引入了采购更多组件的需求以及相关的物流和供应链成本。这种方法还需要更多的工程工作,增加不可收回费用(NRE),并延长开发和测试时间。此外,还设计了一种模块化方法来优化高性能处理器的供电。热处理能力强的集成电源模块大大简化了电源设计,减少了BOM,增加了更改的灵活性,加快了开发。电源模块结构紧凑,功耗高,易于放大或缩小。
解决高性能计算能力交付难题的结构化方法
为了解决当今常见的PDN挑战,Vicor提供了两种方法来满足当今最常见的情况。
桥接传统系统:连接12V至48V系统。对于需要更高效率和功率的传统系统,Vicor提供了一个使用双向NBM™非隔离母线转换器的简单选项。NBM可实现从48V到12V的高效转换,反之亦然,可将传统板集成到48V基础设施中,或将最新的GPU集成到传统12V机架中(图3)。
 
图3:连接12V至48V系统。对于需要更高效率和功率的传统系统,Vicor提供了一个使用双向NBM™ 非隔离母线转换器的简单选项。NBM可实现从48V到12V的高效转换,反之亦然,可将传统板集成到48V基础设施中,或将最新的GPU集成到传统12V中
 
48V至PoL输送:48V至负载点。Vicor合封电源(power-on-package,PoP)解决方案可将主板电阻降低50倍,处理电源引脚数减少10倍以上。利用分比功率架构(Factorized Power Architecture,FPA™),Vicor采用两种专利解决方案,即横向送电(LPD)和垂直送电(VPD),将“最后一英寸”电阻降至最低。两者都使处理器能够达到以前无法达到的性能级别,以支持当今呈指数级增长的HPC处理需求。
数据中心、边缘计算和物联网的需求没有下降。大数据的处理速度比以往任何时候都要快。九个月后,今天的最大处理速度将太慢。电力输送将再次成为焦点。寻找提高吞吐量和减少延迟的新方法是一个永恒的挑战。确定一个灵活且可扩展的解决方案是完成难题的最后一步。这将最大限度地减少重新设计,并便于将来的修改。模块化方法适应了当今和未来高性能计算的所有方面。
 
www.vicorpower.com
 

订阅我们的通讯!

电子邮件地址