AI伺服器功耗从晶片烧到整柜,气冷已难支撑高密度部署,液冷从选配走向标配,台达电、奇鋐、双鸿、纬颖等台厂卡位系统升级。
【文/吕泰德】
如果说二○二三年是生成式AI全面驱动的起点,那么二六年则是AI资料中心正式进入功耗时代的分水岭。
过去二十年间,全球资料中心竞争焦点主要围绕在运算效能、储存容量与网路频宽,但随大型语言模型、生成式AI与AI Agent快速扩张,市场开始发现真正限制AI基础建设扩张速度的关键因素,已逐渐从晶片供给转向电力与散热能力。因为当运算密度持续提高,热量增加速度远远超过传统资料中心的设计假设,气冷架构逐渐逼近物理极限。
当前,企业机房与一般云端伺服器大多采用气冷设计,单柜功耗约落在五至十五kW,大型云端业者部分高密度机柜虽可达二○至三○kW,但仍可透过空调系统、冷热通道管理以及高效风扇维持稳定运作。
然而生成式AI出现后,情况开始出现变化,因为AI伺服器不只是增加数量,而是让单一机柜的运算密度呈现倍数成长。尤其GB200 NVL72的问世,象征AI资料中心正式从伺服器时代跨入机柜时代。
功耗升级改写散热规格
过去资料中心竞争的是单台伺服器效能,如今竞争的则是整个机柜的运算能力与能源效率。由于七二颗GPU需透过NVLink高速互连形成单一运算平台,系统设计更强调集中部署与高速资料交换,使算力密度创下历史新高,但同时也将热源高度集中。
当机柜功率密度突破一○○kW门槛后,传统依靠风扇与空调的散热方式逐渐接近极限,促使液冷从过去的选配方案转变为新世代AI资料中心的重要标准配置,并带动冷板、CDU、快接头与液冷机柜等供应链全面升级。
根据施耐德电机公开资料,AI资料中心机柜功率密度已由传统十至二○kW,快速提升至超过一○○kW水准,未来更有机会朝数百kW发展。对资料中心营运商而言,真正的挑战不只是耗电量增加,而是热量移除效率。因为空气本身的热容量有限,即使增加风量与空调能力,也无法有效解决高密度运算所产生的局部热点问题。
反观液体的热传导效率远高于空气,能够更直接将热量从GPU与CPU表面带走,因此开始成为AI资料中心的主流方向。
也正因如此,Nvidia执行长黄仁勋也多次强调,未来资料中心将不只是储存与运算空间,而是生产AI模型与AI服务的工厂。既然是工厂,就必须考虑能源供给、热能管理与营运效率。这种思维转变使得资料中心逐渐从资讯科技产业,跨入能源工程与基础建设。
液冷直攻晶片热源
当AI伺服器的运算密度愈高,热源就愈集中,过去靠风扇、散热片、热导管与机房空调堆出来的气冷架构,已经很难支撑百kW等级的机柜部署。过去资料中心是把热从伺服器内部吹到机房,再由空调系统处理;但AI机柜的热密度太高,若仍先让热留在机箱内,再透过空气慢慢带走,不只效率低,还会让风扇耗电、空调负载与机房能耗同步上升。
因此,产业开始把散热位置直接贴近GPU与CPU,把热在源头就带走,这就是直达晶片液冷(Direct-to-Chip; DTC)液冷。所谓DTC液冷,核心是利用冷板贴(Cold Plate)附在GPU、CPU与高热源元件上,让冷却液透过冷板内部微通道流动,直接把晶片运算产生的热带走,再经由歧管、管路与CDU液冷分配装置把热交换出去。(全文未完)
全文及图表请见《先探投资周刊2407期精彩当期内文转载》
◎封面故事:国际功率元件打下AI基建江山
◎特别企划:股东会看景气 话题围绕AI
◎焦点议题:AI智慧眼镜供应链曝光
◎中港直击:中芯国际难以大鸣大放
如没特殊注明,文章均来源于互联网,版权归原创作者所有,如有侵权,请联系我们处理!


