当前位置:首页>Bow IPU+超级智能——Graphcore迈向未来AI的关键

Bow IPU+超级智能——Graphcore迈向未来AI的关键

  • 2024-02-07 11:30:10

  • 北京时间3月3日,GRAPHCORE发布了第三代IPU系统BOW系列和新一代IPU,后者采用7纳米制程工艺,是全球首款基于台积电的3D WAFER-ON-WAFER技术的处理器,性能较上一代提升40%,电源效率提升16%,用户无需修改代码即可接入使用新系统,新产品价格较上一代保持不变(GRAPHCORE为订购IPU-M2000的老用户提供了优惠方案,以确保其可以获得相似的性能/美元)。“3D WAFER-ON-WAFER的芯片测试已经进行了一年多的时间,这得益于我们与技术伙伴的紧密协作,同时,他们也需要在AI处理器上共同推进新技术的落地。”GRAPHCORE大中华区总裁兼全球首席营收官卢涛在接受采访时谈到。

    采用3D封装技术的BOW IPU在单个封装中容纳了超过600亿个晶体管,在供电裸片中添加了深沟槽电容器,位于处理内核和存储旁,提供了高效供电,实现350 TERAFLOPS的AI计算,优化了硅供电。BOW IPU中的WAFER-ON-WAFER能够在硅片之间提供更高的带宽,优化电源效率,在晶圆级别提升COLOSSUS架构的功率。通过把两个晶圆结合在一起,产生一个新的3D裸片,其中一个晶圆用于AI处理,在架构上与GC200 IPU处理器兼容,拥有1472个独立的IPU-CORE TILE,能够运行8832个并行程序,具有900MB的处理器内存储,吞吐量从47.5TB/S提高到65TB/S,10个IPU-LINKS可提供320GB/S,第二个晶圆拥有供电裸片。卢涛称:“通过与台积电紧密合作,我们充分验证了整套技术,包括背面硅通孔(BTSV)和WAFER-ON-WAFER(WOW)混合键合中的多项突破性技术。”

    作为BOW POD系统的组成部分,最新BOW-2000 IPU MACHINE采用了与第二代IPU-M2000 MACHINE同样的系统架构,但配备了四个BOW IPU处理器,可提供1.4 PETAFLOPS的AI计算。BOW-2000与IPU-M2000同样使用1U刀片,具有3.6 GB的处理器内存储,吞吐量为260TB/S,IPU流存储达到256 GB,具有2.8 TBPS IPU-FABRIC。BOW-2000可以兼容之前的IPU-POD系统,其高速、低时延的IPU结构和灵活的1U外形尺寸保持不变。BOW-2000是整个BOW POD系列的基础组成部分,可安装在戴尔、ATOS、SUPERMICRO和浪潮等品牌的主机服务器上,组成BOW POD系统。

    BOW POD系列包括BOW POD16(4台BOW-2000和一台主机服务器)、BOW POD32(8台BOW-2000和一台主机服务器)、BOW POD64以及更大的旗舰系统BOW POD256和BOW POD1024。其中,BOW POD16能提供5.6 PETAFLOPS的算力,向上纵向扩展到BOW POD32、BOW POD64,再以BOW POD64作为横向扩展单元,扩展到BOW POD256、BOW POD1024等。旗舰产品BOW POD256可以提供超过89 PETAFLOPS的AI算力,超大规模BOW POD1024(当前处于早期访问版本)可提供358.4 PETAFLOPS的AI算力。横向扩展方面,如果以IPU-POD16的性能作为基准,BOW POD16的性能有1.4倍,BOW POD256有18倍。

    “这些性能的提升在很大程度上也归功于软件栈的生态系统。”GRAPHCORE中国工程副总裁、AI算法科学家金琛表示,“核心的部分就是POPLAR SDK,包括驱动器、编译器等等。在此基础之上,GRAPHCORE还有着丰富的生态,例如支持PYTORCH、TENSORFLOW、HALO、PADDLEPADDLE、KERAS等框架和库,并且支持JUPYTER NOTEBOOK、INFERENCE DEPLOYMENT TOOLKIT等。面向开发者社区,我们提供了广泛的代码用例,以及各种文档、视频的示范。例如在机器学习的应用上提供了丰富的模型范例,覆盖图像识别、检测、语音等AI领域,这些范例还在持续增加。在云上,我们也提供了广泛的部署、监控、管理、集成等功能。还有POPVISION工具,可以帮助用户和POPLAR编程者更有效地提升应用在我们的平台上的性能优化。”

    在各类AI应用的真实环境中,在与配有BOW POD系统的MK2 IPU-POD系统相同的峰值功率范围内,各类AI应用的性能提升可达到40%,包括图像分类、检测、文本到图像等,覆盖CNN、TRANSFORMER等网络。对于计算机视觉模型EFFICIENTNET,在EFFICIENTNET-B4上的性能提升达到39%,BOW POD16性能是同类NVIDIA DGX A100系统的5倍左右,神经网络模型训练大概只需要14个小时,而价格只有一半,相当于TCO优势提升10倍。实际表现中,BOW系统的性能和上一代产品相比也有较大的提升,在CONFORMER模型上,有着36%的提升,在ASR的模型和TEXTTOSPEECH(文本转语音)的模型上,有着约39%的提升。在较大幅度性能提升的基础之上,GRAPHCORE还保证了整体性能的有效性,相关的模型可以达到接近96%的电源效率。

    卢涛称,人类大脑里面约有860亿个神经元、100万亿个突触。如果将突触类比AI模型的参数个数,那么当前最大的AI模型约有1.6万亿个参数,距离人脑还有100倍的差距。为了迈向未来AI,GRAPHCORE正在开发一款可以用来超越人脑处理的超级智能机器――GOOD COMPUTER(古德计算机),预计在2024年交付。这款机器会搭载新一代IPU技术,带来超过10 EXA-FLOPS的AI浮点计算、最高4PB的存储、带宽超过10PB/秒,支持超过500万亿参数的AI模型,获得POPLAR SDK的完全支持,并且会延续3D WAFER-ON-WAFER逻辑栈。价格方面,该计算机预计在100万美元至1.5亿美元(取决于配置)。

    目前,BOW IPU已经获得了不少客户的部署和认可,例如美国的一所国家实验室就利用其进行了基于TRANSFORMER模型和图神经网络的实践,主要应用场景为化学研究、网络安全等。此外,GRAPHCORE在医疗健康、保险、云计算、气象、分子动力学、互联网等行业的客户也在加速落地。在中国市场,已经有客户拿到了BOW系统,计划展开测试和部署应用。针对该系统的模型性能优化等软件开发工作,也是由GRAPHCORE的中国团队完成的。

    随着企业的数字化转型步入深水区,愈发多元化、复杂化的工作负载催生了异构计算的黄金时期,IPU能够在一众XPU中杀出重围,除了有着领先的工艺设计和架构优势、完善的软件栈,还有能够让其大展拳脚的模型实例和应用场景。以TRANSFORMER为例,CV、语音等越来越多的垂直应用转向TRANSFORMER,对网络训练的深度和精度提出了更高的要求。而早在2020年,GRAPHCORE就观察到了这一趋势,并为此进行了大量的技术研发,IPU的架构设计与之也较为适应,例如在训练方面的表现不输于NVIDIA的系统,在推理方面的表现则要更好。

    “起初,IPU并没有针对某个具体的模型来设计,原因是我们认为AI计算在底层都是以计算图来组织的,所以要看怎样的计算架构适合相应的应用。像是在TRANSFORMER场景中,IPU的优势就比较大。”卢涛表示,“如今,AI领域呈现着X×Y×Z的关系,即X是应用,Y是框架,Z是处理器,X×Y×Z的可能性会有很多。如果有一套主线出来之后,对于芯片厂商仍会有广阔的空间,但大体上都是沿着一条主干道在发展,这样对于客户、开发者都是有好处的。”