英伟达在4月发布面向专业计算领域的HOPPER架构GPU――H100,性能是上代安培A100的3倍,伴随性能一起到来的还有功耗暴涨,SXM版本从A100的400W提升至700W,PCIE版本也从300W提升到350W。事实上,GEFORCE显卡也从RTX 3090的350W提升至450W,甚至部分非公产品峰值可达560W。
虽然单个晶体管功耗降低,芯片制造商显然不会放弃性能的提升,但GPU的整体功耗并没有跟随晶体管的缩小而降低。在面对显卡越来越高的功耗,电源供电和散热已然成为保证性能的瓶颈。另外,小芯片技术虽然为构建更强的芯片铺平道路,但将芯片3D封装会让核心间的积热问题更严重。
台积电在年度技术研讨会上表示,计算领域的每个芯片和机架单元功耗,不会受到传统风冷散热的限制。台积电拥有COWOS和INFO等先进封装技术,允许芯片制造商突破传统标线限制,集成更多系统级封装(SYSTEM IN A PACKET,简称SIP)。通过将四个标线大小的芯片结合到一起,让每个SIP芯片拥有超3000亿个晶体管,以带来更强的系统性能。作为代价,这些芯片的功耗和发热也非常巨大。
SXM版本的英伟达H100加速卡拥有超过700W的峰值功耗,在单封装系统里使用多个GH100芯片的难度可想而知。如果找不到更好的办法,未来只能为系统带来超1KW的功耗、散热设计。虽然RTX 3090 TI混合式散热可以一定程度上解决发热问题,但传统水冷散热方案也有局限性。
台积电方面认为,当芯片封装功率超过1000W时,数据中心需要为AI或HPC处理器准备浸没式的液冷散热系统,带来的结果就是需要彻底改造数据中心的结构。台积电方面曾在2021年透露其尝试过片上水冷方案,甚至说可应对2.6KW的SIP散热需求。
虽然这项技术面临短期和持续性挑战,不过英特尔等科技巨头相当看好浸没式液冷散热方案,并希望推动该技术走向主流。对于愿意为此买单的客户(比如超大规模云数据中心的运营商们)来说,他们有望推动究极AI、HPC解决方案的发展,但缺点是技术复杂性和成本都相当高昂。
编辑点评:虽然半导体技术在最近几年不断进步,但微缩技术并没有让芯片的功耗得到控制,芯片设计商在权衡功耗于性能之后,都选择后者,其中显卡的趋势非常明显。2017年发布的GTX 1080TI的热设计功耗为250W、2018年的RTX 2080TI达到285W,但2021年发布的RTX 3080TI达到350W,厂商基本以功耗换性能。
在更大面积芯片和更高功耗下,供电和散热已经成为芯片设计商最头疼的问题。消费级显卡还能用也冷+风冷的双散热设计,更高端的3D封装芯片就只能选择散热效率更高的浸入式散热,或者之前台积电在芯片内部预留散热管道一样,藉此提高散热效率,减少积热等一系列问题。