第一章:AI 算力军备竞赛,功耗飙升成新常态,旗舰芯片迈入千瓦时代

admin

第一章:AI 算力军备竞赛:功耗飙升成为新常态

人工智能模型的体积和复杂性正以摩尔定律失效的速度迅速扩大,这一现象直接促使AI芯片的能耗以前所未有的速度上升。这种增长并非简单的线性增加,而是对数据中心供电和散热系统构成了颠覆性的考验。

1.1 旗舰 AI 芯片功耗迈入“千瓦时代”

踏入2025年,市面上主流的人工智能芯片在能耗方面已全面超越了过往的预期。

NVIDIA的Blackwell架构带来了重大影响:在当前市场,NVIDIA作为当之无愧的领导者,其最新推出的Blackwell架构将能耗提升至前所未有的高度。其顶级产品B200 GPU的单芯片热设计功耗(TDP)已经明确达到了1000W,而一些特定的高性能版本更是高达1200W,这类产品通常需要配合液冷散热技术来实现散热需求。与上一代H100 GPU的约700W功耗相比,这一代产品在功耗上实现了明显的提升。

AMD与新兴企业的竞争态势:在激烈的市场角逐中,AMD的MI300X加速器能耗高达750瓦,与此同时,以高效能比闻名的Groq LPU,其现有芯片的能耗亦达到了500瓦,且公司计划在年内推出基于4纳米制程的新款芯片,旨在进一步提升性能和能耗表现。

1.2 系统级功耗:从单机“十千瓦”到机柜“百千瓦”

单芯片能耗急剧上升,这一影响直接蔓延至整个服务器系统以及数据中心机柜层面。

以装备有8颗H100图形处理单元的NVIDIA DGX H100服务器为参照,该服务器的最大能耗可达到10.2千瓦。然而,随着Blackwell时代的到来,能耗问题愈发严重。GB200超级芯片,由两颗B200图形处理单元和一颗Grace中央处理器构成,其整体能耗竟高达2700瓦。一台配备8颗B200处理器的标准DGX B200服务器,其整体能耗已高达令人瞩目的14.3千瓦。

NVIDIA为追求极致的算力密度,推出了NVL72整机柜方案。该方案中集成了72颗B200 GPU。这一设计使得单个机柜的总功耗得以显著提升,成功突破了100kW的门槛,最高甚至可达120kW。这一变革完全打破了传统数据中心以单个机柜为单位的30至40千瓦的设计极限,对从机柜的电源分配单元到整个数据中心的供电与配电系统,都提出了颠覆性的全新要求。

功耗的急剧上升表明,AI服务器的电源系统已不再仅仅是能量转换的装置,它已成为确保海量算力持续稳定输出的关键,同时它也直接关系到数据中心的能源效率(PUE)以及运营成本的高低。

第二章:AI 服务器电源架构的深刻变革

为了应对“千瓦级”AI芯片和“十千瓦级”服务器带来的巨大供电挑战,AI服务器的电源架构正在全面升级,从设计理念到物理形态均发生了变革。过去简单、单一的电源配置方案已经完全不再适用,现在采用的是功率更高、密度更大、冗余度更高的模块化设计方案。

2.1“人多力量大”:多模组冗余成为标配

为了确保 AI 训练任务能够实现全天候不间断运行,并满足高可靠性的需求,电源系统必须采用冗余设计,这已成为一项强制性的技术规范。在 AI 服务器领域,普遍采用的冗余模式是 N+N 或 N+1。

典型配置案例:

戴尔PowerEdge XE9680,这是一款专为AI和高性能计算打造的顶级服务器。它配备了四个2800W的高功率可热插拔电源模块。这些模块支持2+2或3+1的冗余设计,即便单个电源出现故障,系统也能保持全功率稳定运行。

浪潮AI服务器,以NF5468A5为例,具备3+1或2+2的冗余配置能力。其后续产品NF5688M6,更是进一步提升了配置,最多可安装6个电源模块,并采用了3+3的冗余模式,充分体现了对供电稳定性的极致追求。

NVIDIA DGX H100系统,依据不同分析,装备了6个3300W的电源模块,亦或是4个3000W的内部电源供应单元,其总功率储备量显著超过最大功耗,从而为系统提供了稳固的冗余保障。

总体而言,为了满足4至8颗高能耗GPU的运行需求,目前主流的AI服务器普遍配备了4到8个高性能电源模块,这已成为一种普遍现象。这样做不仅能够应对峰值功耗,还通过冗余设计来保障业务的持续稳定运行。

2.2 CRPS 规范与高功率密度化趋势

为了达成标准化、模块化以及易于维护的目标,开放计算项目(OCP)所制定的通用冗余电源(CRPS)标准已逐渐成为业界共识。这一规范对电源模块的物理尺寸和接口进行了统一规定,同时其热插拔特性显著提升了数据中心运维的便捷性。

然而,随着 AI 浪潮的到来,CRPS 面临着新的挑战:必须在仅有 1U 的空间限制下(尺寸为 40mm x 73.5mm x 185mm),实现功率的显著提升。电源模块的功率经历了从550W、800W、1200W的逐步提升,现已跨越至2000W、2800W,目前3000W至3200W的规格已成为AI服务器的标配,且正不断向5500W乃至8000W的高功率级别发展。这种功率密度的迅猛增长,无疑是AI时代电源技术最为突出的特点之一。

第三章:量价齐升:AI 服务器电源市场的价值重估

AI服务器对电源的需求在功率、数量、效率和技术层面急剧增加,这使得电源市场的价值观念正经历根本性的转变。一个“价格与数量同步增长”的黄金时期已经降临,电源在整个设备成本中的比重也经历了显著的转变。

3.1 价格跃迁:单瓦价值的几何级增长

AI服务器的电源费用显著超过传统服务器电源,这一点在“每瓦成本”的迅猛增长中表现得尤为明显。

技术溢价:高效率认证与新材料应用

为了满足严格的能耗法规要求,例如欧盟的Lot 9规定,以及应对不断上升的电费开支,AI服务器所使用的电源普遍需要达到80Plus钛金(Titanium)级别的认证。这种认证标准规定,电源在50%的负载状态下,其效率必须达到96%,即便是在只有10%的低负载情况下,效率也不能低于90%。达成这样的转换效能,需采用更为繁复的电路布局、选用更高品质的元件,这无疑大幅增加了生产成本。据信息显示,仅仅认证级别的升级,钛金牌电源的售价通常就会达到白金牌的1.5至2倍。

第三代半导体的引入:要在有限的空间内达到3000W以上的高功率输出,传统的硅基功率元件显得力不从心。在此背景下,业界领先的电源制造商,例如台达电子,已经广泛采用了碳化硅(SiC)和氮化镓(GaN)等宽禁带半导体材料。这些新型材料虽然能够实现开关频率的提升、损耗的降低以及功率密度的增加,然而,它们的成本却显著高于传统的硅基器件,进而成为推动电源单价上涨的重要因素。

单瓦价格对比分析

依据行业渠道的数据,即便是价格颇具优势的光宝科技,其AI服务器电源的AC-DC模块单价已高达大约4元人民币每瓦;与此同时,市场龙头台达电子,凭借其方案涵盖AC-DC以及后续的DC-DC转换,整体价值更为突出,其AC-DC模块的单价大约在8至10元人民币每瓦之间。

行业观点明确表示,即便光宝产品的单价为4元/瓦,这也“远超目前市面普通电源的四倍”。对此,我们可以进行一番比较:一台传统服务器可能配备1000W的金牌电源,其市场单价往往低于1元/瓦。反观AI服务器所采用的3000W钛金电源,其单价则轻松跨越4至10元的大关。

由此可见,该论断指出“单W价格相较于传统服务器提升了五倍以上”,这准确反映了当前市场的实际情况。这种显著的价值增长,主要得益于技术壁垒、材料成本以及研发投入的整体提升。

3.2 成本重构:从“边缘组件”到“核心子系统”

传统观念中,电源在服务器的物料清单中的成本占比通常不高。以 NVIDIA DGX H100 为例,其内部电源单元(PSU)在整体物料清单成本中仅占 0.3% 到 0.4%。但这种方法存在很大的误导性,已无法准确体现 AI 时代电源系统的实际价值和成本构成。

探讨分析视角的局限:在 DGX H100 这类高性能系统中,仅8颗GPU的成本便接近20万美元,其占总体成本的比例超过70%,从而使得其他所有组件的成本在数值上显得微不足道。若将这一特殊情况当作普遍准则,将极大地忽视电源在系统中的实际重要性。

成本定义的演变:随着人工智能和液冷技术的到来,对于“电源成本”的理解需要从原先单一的服务器内部电源供应单元(PSU)的概念,扩展至涵盖机架级的电源分配单元(PDU)以及液冷系统的冷却分配单元(CDU),形成一个完整的“供电与散热子系统”概念。这三者共同构成了确保 AI 服务器稳定运行的关键能源链条。

高功率PDU的造价不菲:一台能够承载100kW以上功率的机柜,配备所需的智能型、高冗余度的机架PDU,这本身就构成了相当大的经济投入,与传统PDU相比,其成本差距明显。

液冷CDU的费用:以GB200 NVL72这类液冷系统为例,其液冷装置(涵盖CDU、冷板、管道等)的整体价格预计在8万至10万美元之间,有时甚至更高。CDU作为液冷系统的核心,其运作同样需要稳定且可靠的电力供应,是广义电源系统不可或缺的组成部分。

对未来的成本构成进行预测,若从“供电与散热子系统”的全面角度重新评估,我们发现这一部分在服务器部署的整体成本中所占比例将发生显著变化。在规划新型的AI数据中心或庞大的算力集群之际,针对单台服务器所必须配备的全面能源支持系统——包括高功率的电源供应单元模块、高级别的电源分配单元以及中央配电单元及其相关配电设施——所需的投资,将远远超出物料清单上那几乎可以忽略不计的0.4%。因此,在AI服务器市场的整体格局中,尤其是针对未来趋势的新一代架构,电源及其相关配套系统的总体成本所占比例约为15%至20%,这一评估显得更为切实且富有远见。这一比例揭示了行业价值观念的转变,即从单纯重视芯片性能向同时重视算力和能源效率的转变。

第四章:技术前沿与市场格局:谁将主导未来?

AI服务器电源领域的迅猛发展,正吸引着众多参与者纷纷加入,同时也加速了相关技术的快速进步。

4.1 技术发展方向

追求达到或超越96%的钛金效率,甚至挑战97.5%以上的更高效率标准,这一目标将始终如一地占据核心位置。同时,氮化镓(GaN)和碳化硅(SiC)等第三代半导体材料的运用将变得更加广泛,它们是实现更高功率密度的关键因素。

液冷供电一体化技术:随着液冷散热方案成为B200及其后续芯片的通用配置,电源设计必须与液冷系统实现更深层次的融合。这就要求为CDU、水泵等关键部件提供稳定且高效的电力供应,同时,电源自身的热管理也需要与液冷系统实现协同工作,这无疑为设计者带来了新的挑战,也成为技术创新的新方向。

智能化与数字化时代,未来的电源将不再仅仅是“哑”设备,它将进化为拥有丰富通信和监控功能的智能节点。借助PMBus等通信协议,我们可以对电压、电流、功率、温度等关键参数进行实时监控与调整,并与上层管理软件实现联动。这样的联动将有助于实现能耗的精细化管理和预测性维护,从而成为提高数据中心整体运营效率的关键因素。

4.2 市场竞争格局

当前,全球服务器电源市场表现出高度集中的特征,其中领导者所具有的优势尤为显著。

台达电子(Delta)作为当之无愧的行业领军企业,凭借其丰富的技术底蕴、卓越的研发能力以及与顶级云服务提供商和服务器OEM厂商的紧密协作,成功占据了超过50%的市场份额,在核心客户群体中的份额更是高达80%-90%。此外,台达在3200W钛金级电源等高端产品领域的先行布局,进一步稳固了其在市场上的领先地位。

光宝科技(Lite-On)作为市场的重要竞争者,其研发和生产实力不容小觑,在AI服务器电源领域占据了关键位置。光宝科技往往采用更具吸引力的定价策略,其单位瓦特成本低于台达,从而在特定客户群体和市场中占据了有利地位。随着3000瓦以上产品的销量逐渐增加,光宝科技有望在AI热潮中进一步拓宽其市场份额。

其他参与者中,康舒科技、全汉以及大陆的服务器制造商,例如华为和浪潮,它们的自主电源部门亦在积极开拓AI服务器电源市场,与各方力量共同营造了一个多元化的竞争格局。

在挑选服务器OEM合作伙伴和面向最终用户的供应商时,必须综合考虑技术实力、成本效益、供应链的安全性以及定制化服务的能力等多重因素。

结论

2025年的此刻,我们正处于一个由人工智能驱动的算力革命的关键节点。在这场革命中,服务器电源的角色已经发生了从幕后到台前的转变。它不再是服务器成本中微不足道的“其他项”,而是与CPU、GPU一样关键的、决定人工智能算力能否高效、稳定、经济实现的核心技术基础。

AI芯片的功耗突破了1000瓦的大关,引领服务器电源系统迈向了高功率、高密度、高冗余、高效率的“四高”新纪元。这一变革导致单瓦成本激增至数倍,并且在整机组装成本中所占比例上升至15%-20%,这一价值重估现象深刻揭示了市场对于这一核心子系统的认知发生了根本性的变化。

面向未来,AI模型的不断进步将带来对计算能力的持续追求,对电力供应系统的考验也将逐步加剧。那些掌握了宽禁带半导体技术、液冷集成技术以及智能控制技术等关键领域的电源企业,将在价值万亿的AI市场蓝海中,占据最为有利的竞争地位。数据中心产业的整体发展,亟需对能源基础设施进行重新评估和规划,此举对于在未来十年内取得人工智能领域的竞争优势至关重要。在人工智能的发展进程中,电力资源将扮演着至关重要的角色,其未来走向在很大程度上将由电能来决定。