当前位置:首页>挤牙膏的艺术:苹果M2云评测

挤牙膏的艺术:苹果M2云评测

  • 2024-10-04 11:05:07

  • 前不久的COMPUTEX大会上,英伟达在其主题演讲中相对罕见地将自家GEFORCE RTX 3080 LAPTOP和苹果M1 MAX的GPU做了性能比较,具体结果如下图:

    要说英伟达为什么要给出这番比较,大概是因为去年苹果发布MACBOOK PRO 16"和M1 MAX的时候,特别提到M1 MAX的GPU性能堪比GEFORCE RTX 3080 LAPTOP,而且功耗还低很多。做了这么多年GPU的英伟达听到这种话,必然是要不爽的:要PPT吊打,谁还不会啊。

    这组性能对比的项目包括了PHOTOSHOP、达芬奇、V-RAY等,从小字还是能看出对比偏向于GPU的通用计算加速、一些AI任务负载,其中还包括了CUDA模式下的V-RAY GPU基准测试。这其实是在欺负苹果GPU生态贫瘠,以及嘲笑其硬件堆料那么多,到头来连英伟达的甜品卡3060都比不上,谈什么“堪比3080”,简直是笑话......

    这个例子充分说明了,芯片性能、能效之类的比较,看你想比啥,谁吊打谁真的不一定。或许很多读者会觉得英伟达是特意挑了一些苹果不擅长的项目来比,但实际上苹果在自家芯片的性能宣传上比这还要过分。这次WWDC主题演讲上,M2芯片的数据比较也大致如此。本文,我们来谈谈这颗万众瞩目的苹果M2芯片,又一次“云”解析。

    苹果照例在M2这颗芯片上没有给出更具体的数据,比如说处理器频率、核心代号是什么。大方向上,芯片层面相比上一代M1的主要提升包括:CPU性能提升18%,GPU性能提升35%,AI单元(NEURAL ENGINE)算力提升40%(15.8TOPS),内存带宽提升50%(100GB/S),内存容量最高提升50%(24GB),新增PRORES编解码加速引擎。看起来都还不错。

    CPU和GPU更新应当仍然是大众最关心的。CPU部分,苹果硬件技术高级副总裁JOHNY SROUJI在发布会上说:“性能核心(大核)更快,采用更大的CACHE;而能效核心(小核)则在性能方面有了大幅提升。”从这句话是有理由推断,M1M2的CPU部分提升,非常类似于A14A15(IPHONE 12IPHONE 13)。而且A15也是基于台积电N5P工艺,M2延续A15的部分设计是比较合理的。

    M1本质上就属于扩大了规模的A14,包括两者CPU大核微架构都是FIRESTORM,小核都是ICESTORM,只不过核心频率、缓存大小、核心数、TDP等具体规模存在差异。再基于苹果给出M2 CPU的CACHE大小,M2大概率就是A15的规模扩大版。

    因为如果苹果真的给M2换个全新的架构,那么基于ARM阵营指令集已经更新至ARMV9,苹果应当在近代CPU上尽快迁移到ARMV9才对;但苹果本次发布会完全没有提到这茬,也充分说明M2的CPU还在用旧架构。

    因此合理猜测M2的CPU大核为AVALANCHE,小核为BLIZZARD。A15芯片的一大特点就是CPU性能提升幅度比较小,重在能耗比、效率的升级上:尤其体现在AVALANCHE大核各方面相比于A14的大核都只是小改,提升主要体现在核心频率和CACHE大小的变化;但BLIZZARD小核变化相对较大,包括存储子系统TLB,后端还新增了1个额外的ALU整数单元。

    这相当符合前文引用的JOHNY SROUJI在发布会上对于M2大小核变化的评价。苹果给出的数据是,M2相比M1,CPU性能提升18%。这里18%的性能提升是说多核性能,但苹果没有说对比的究竟是什么(官网脚注中只说基于某些“行业标准BENCHMARK”)。另一个重要指标依旧被忽略:单核性能(或IPC提升)。目前苹果CPU的单线程性能已经落后于INTEL;苹果的单线程性能增长至少需要看A16芯片的改进。

    而这18%的CPU多核性能提升,其中有一大部分应该是BLIZZARD小核微架构改进带来的。到更系统的真实负载测试里,M2相比M1的CPU性能提升幅度应当不会很大;略有挤牙膏的嫌疑。不过能效方面的提升依然相当不错,这是苹果的传统强项了――N5P工艺在此应助力不少。

    GPU部分,苹果给的数据是M2相比M1性能提升35%,对比项目依旧不明。35%的提升幅度看起来还不错,但须知M2的GPU相比M1多加了2个核心(核心数提升25%),而且共享L2 CACHE也加大了(虽然不知道加大了多少)。所以M2 GPU的峰值性能也需要更高的功耗(看图大约为15W)。而同功耗下,M2 GPU依然有25%的性能优势。提高核心数的操作,也和A14A15如出一辙。与此同时M2一样有残血版:阉割了2个GPU核心(8核心版),作为MACBOOK更低配置出售。如此一来,残血版M2的GPU性能相较于M1的提升应当会极其有限(

    另外值得一提的是内存控制器支持到LPDDR5,达成内存带宽100GB/S――相比于M1提升了50%。100GB/S在低功耗移动平台相比竞争对手仍然是个鹤立鸡群的值,带宽高出隔壁数倍;不过自从看过M1 MAX的400GB/S以后,大家好像已经没有那么震惊了。这种大带宽,加上苹果的统一内存架构,对于GPU而言会很有价值。有关GPU部分,后文还会进一步谈到。

    M2芯片其他部分比较值得一提的是苹果的传统艺能,媒体引擎的进一步加强――这显然是为多媒体创作者准备的,尤其为宣传中领先竞争对手“X倍”的数据提供了理论支撑。这两年PC处理器制造商似乎都在媒体引擎方面内卷。从大方向来看,这属于添加专门的处理单元,来大幅提升某一类工作效率的方案。

    M2除了支持8K H.264和HEVC格式的视频解码之外,另外带上了专用的PRORES视频编解码器;系统层面PRORES格式转码的速度能有3倍提升。这对视频工作者还是相当有价值的,也是苹果很清楚自家笔记本究竟卖给谁的证明――死死把握住自己的多媒体创作、剪片子用户市场。这次的媒体引擎更新似乎是向M1 PRO/MAX看齐的节奏。

    其他方面的配置更新还包括AI单元、新的ISP、新的SECURE ENCLAVE等。比较值得一提的是,M2在I/O方面依然比较孱弱,和M1一样还是只支持外接1个最高6K分辨率60HZ显示器;USB-C口也并非高规格的雷电4。这就相当的不高级,或许苹果也是希望更PRO需求的用户还是考虑14/16寸MACBOOK PRO产品为宜。

    总结一下M2的主要改进:GPU增加核心,CPU提升能效,内存升级到LPDDR5,媒体引擎加强――剪片子更快。虽说M2总共200亿晶体管数量相比M1增加了25%,但实际上更多的晶体管应该都用来堆GPU核心、AI单元核心,以及更大的CACHE了。从这个角度来看,M2其实没有带来多大的惊喜。

    借此也不难发现,即便是苹果这种设计能力很强的企业,也很难在不堆砌硬件资源的情况下,获得多大程度的性能提升。比如单线程性能,历史上不同市场参与者对核心微架构的一众奇技淫巧皆已发挥完毕,苹果也跳不出这个框架。不过有一说一,A15本身已经足够优秀,M2虽然没能带来M1问世时的那种惊喜,但在能效方面也依然出类拔萃。

    正儿八经地聊完M2芯片,接下来是常规的吐槽环节,即苹果给出的那些数据靠不靠谱,尤其是和“竞争对手”之间的比较数据。

    芯片层面,苹果宣称相比“最新的10核PC笔记本芯片,M2的CPU在同功耗下能够提供将近2倍的性能(1.9倍)。而且要达到这颗PC芯片的峰值性能,M2仅需其1/4的功耗”。从苹果提供PPT的小字来看,这里的10核PC笔记本芯片是指INTEL酷睿I7-1255U(TDP 15W, PL2 55W)。

    其实在性能方面对比INTEL 12代酷睿的U系列是不大合理的,今年的酷睿U系列低压处理器普遍配了2大核(P-CORE)+8小核(E-CORE),这样所谓的“10核处理器”显然和INTEL面向笔记本更主流的6大核+8小核配置不同。

    另外苹果宣称,还对比了“最新的12核PC笔记本芯片――这颗芯片需要多很多的功耗才能提供性能上的增加”(如上图),“M2提供这颗芯片将近90%的峰值性能(87%),与此同时功耗仅为其1/4”。这里的“12核PC笔记本芯片”说的是酷睿I7-1260P――这次倒是比了P系列。但实际上,I7-1260P并非12代酷睿P系列中性能最强的处理器,P系列中顶配的酷睿I7-1280P还多了2个大核心,在绝对性能上应当会显著优于M2 CPU。

    所以CPU的性能对比对象选得并不算靠谱,而且我们也不知道究竟比了啥。基于苹果宣称M2 CPU性能大约相当于酷睿I7-1260P(MSI PRESTIGE 14 EVO)的87%,有兴趣的同学可以去查CINEBENCH R23/GEEKBENCH 5之类的线上跑分成绩,推算一下M2 CPU和酷睿I7-1280P的性能差距有多少(不过不同OEM厂商对P系列处理器的功耗设定差异甚大,很难做比较)。

    都是低压处理器,M2的CPU实则很难在性能方面与12代酷睿一较高下,但必须赞赏其功耗表现一如既往的低――能效相较12代酷睿也就好了几个量级。尤其更低性能区间的功耗表现很出色,与台积电的工艺关系也很大。不过请注意,做高性能也没那么简单,尤其在苹果这种超宽微架构的前提下,随便提个频都并没有那么容易。

    GPU部分与竞品的对比,苹果宣称M2 GPU相比酷睿I7-1225U核显,同功耗下性能领先2.3倍。那么实际对比对象,也就是INTEL这边的XE核显,规格为96EU(执行单元)。但实际上X86阵营,目前最强的核显是AMD RYZEN 6000移动系列的RDNA 2;而XE旧架构,INTEL已经用了2-3年,今年年底的13代酷睿预计会有大改。

    从苹果给出这张图的纵坐标标尺来看,M2 GPU的峰值性能大约相当于96EU XE核显的2倍不到(可能在1.8倍左右);那么有理由推测,M2 GPU的性能应该不及AMD移动平台的RDNA 2核显――虽然感觉AMD因为缺货,RYZEN 6000移动处理器还是没能大规模铺货。当然,在此苹果的优势还是在能效上。只不过以苹果GPU的生态,冲着苹果GPU去买MACBOOK AIR显然是毫无必要的。更何况大部分用户选购MACBOOK AIR,还是会选择M2残血版――也就是少了2个GPU核心的版本,核显性能其实就更不值得炫耀了。

    讲完芯片层面,再从系统层面――笔记本整体的角度来看看苹果给出的另外一些数字。顺便也来聊聊苹果在这次发布会上表现出的构建GPU生态的努力。

    “15倍”实在是震惊啊有没有,当代笔记本比前两年的笔记本性能提升15倍...摩尔听了都甘拜下风。苹果在系统层面的对比项目还是非常的“我行我素”。一方面,苹果对比的INTEL处理器是8代酷睿,这都5年前的处理器了;另一方面,15倍对比的具体是用FINAL CUT PRO 10.6.2来执行一个4K PRORES 422视频文件工程,然后比比两者的执行时间。

    还记得前文提到的吗?M2的媒体引擎特别增加了专用的PRORES硬件加速编解码器,而2017年的8代酷睿显然还没有这样的配备,所以有15倍的速度优势。这才叫用自己的长板,去比人家没有的板啊......不过实际上苹果官网给出的对比项目里,15倍还不是最夸张的。

    有一个对比项目是用FINAL CUT PRO去转码一个55秒长度的4K PRORES RAW格式视频,转为PRORES 422格式。M2的转码速度相比M1领先3倍,相比8代酷睿领先了24倍!苹果没有用24倍来做宣传,还是可惜了。其余对比项目包括PHOTOSHOP应用滤镜和函数、PREMIERE PRO的4K H.264媒体文件处理、LIGHTROOM拼接图片等等。

    只能说苹果对比的几乎都是自己的长板,但从另一个角度也说明苹果对自己的目标用户群体非常了解:毕竟很大一部分MAC用户的确会用设备来进行多媒体剪辑、创作等工作;这些数据在此也就有了实际价值;不管它们对于反映处理器综合性能有多么缺心眼。

    不过我们在苹果公开的测试项目中,也发现了游戏性能对比《博德之门3》高画质下,M2相比M1有1.3倍的性能优势。这表明苹果仍然有做游戏生态的渴望。

    GPU生态(或者MACOS生态)始终是苹果的一大短板,所以我们才能看到文首英伟达用一张PPT吊打M1 MAX,苹果就是吃了生态的亏。有关苹果GPU生态,能聊的东西很多。比如说苹果GPU沿袭了IMAGINATION POWERVR GPU,整体是一种TBDR基于TILE的延后渲染架构;图形渲染流水线和传统的桌面GPU有着较大差异。前不久,新西兰的一名数据科学家就特别撰文谈到了其中影响。他认为大量从未针对TBDR存储系统优化过的APP,在M1 ULTRA配备的32MB TLB面前会出现严重的效率问题。有兴趣的同学可以去深究一下,此处不多做探讨。

    其实过往我们针对M1进行BLENDER、GEEKBENCH通用计算加速测试就已经发现,苹果GPU堆了那么多的晶体管,真正可参与实际工作的却少得可怜。即便是号称已经适配了苹果芯片的BLENDER 3.1,用M1 PRO来渲染其中基准测试的BMW项目,其GPU功耗就只用到8-9W,离满载还差得远,就知其生态与英伟达的巨大差距。

    不过在WWDC主题演讲上,我们还是看到了苹果在生态方面的努力的。在MACOS系统更新中,苹果特别提到了对于METAL API的更新。比如说METAL 3引入了一个叫做METALFX UPSCALING的特性。苹果在发布会上说,“渲染更小、更少的计算密集帧,并应用高质量的空间升格(SPATIAL UPSCALING)和时域抗锯齿(TEMPORAL ANTI-ALIASING)”就能以更快的速度渲染复杂的场景。

    这应该是一种很类似于英伟达DLSS超分技术的方案,也是现在图形计算的主流方向。另外苹果还提到对于更复杂、丰富的文理贴图等素材,增加快速资源加载API,能够最小化等待时间――具体是从SSD到统一内存系统的直接路径,GPU能够快速访问高质量的贴图和BUFFER,不需要等待。听起来有没有很像微软的DIRECTSTORAGE API?

    发布会上,苹果还很罕见地邀请到了CAPCOM站台。卡普空作为主流游戏公司,主要就谈到利用METAL 3的这些新特性,令《生化危机:村庄》这个游戏也能流畅地以1080P分辨率跑在M2版MACBOOK AIR上,虽然不知道是何等画质。我们认为,这还是值得期待的。虽然针对GPU图形计算站台的,似乎也就只有卡普空一家。以苹果在芯片设计能效上的优势,做大生态才有机会真的去“媲美”GEFORCE GPU,虽然这需要很长时间。

    M2仍然是低功耗轻薄本市场上最优秀的处理器,虽然我们认为它相比M1挤了牙膏,而且在绝对性能方面也算不上多先进,但能效、效率仍是其巨大优势项。不过比较奇怪的是,M2 CPU在加大CACHE资源,改用N5P工艺的情况下,其日常工作功耗应该会更低才对;加上新版MACBOOK AIR的电池容量还加大了,其续航表现应该会更好才对。但苹果官网给出MACBOOK AIR的续航仍然和上代一样,不知是否是屏幕等其他组件的关系。

    另外,苹果芯片设计惯常的超宽微架构,不大在乎DIE SIZE的风格,也让M2版MACBOOK AIR的价格直接达到了万元水平,还得选配16GB RAM和512GB SSD,一万三的价格实在是没兴趣跟你们玩什么低端市场。当然从整机角度来看,MACBOOK AIR的吸引力其实并不单在M2芯片上,这就是另外的话题了。