深度解析ARM新架构特点:大核处理将更强、中核更省,GPU加入硬件光追

众所周知,ARM可以说是当今大部分智能手机、平板电脑和部分笔记本产品的“万物之源”。近年来,高通和三星的SoC一直在使用ARM公版的CPU设计,而公认“翻身”的联发科则依靠ARM公版的CPU和GPU架构。即使是一直标榜“自研”的苹果,其实也离不开ARM基本指令集的授权。

深度解析ARM新架构特点:大核处理将更强、中核更省,GPU加入硬件光追 第2张

正因如此,当ARM在2022年6月28日晚毫无征兆地突然发布新一代架构方案时,自然值得我们进一步分析。

性能概况:大核更强、中核更省,GPU加入硬件光追

让我们开门见山,让我们直接为您带来这款新一代ARM架构的性能信息。更神奇的是,ARM在公布新老架构的性能对比数据时并没有“耍花招”。事实上,他们给出了史上最详细的性能对比参数。

首先,全新的Cortex-X3大芯。在相同的半导体工艺、时钟频率和缓存设计下,Cortex-X3的性能比Cortex-X2可提升11%。

Cortex-X3在使用相同半导体工艺的情况下,性能比Cortex-X2高22%,但主频和缓存设计对比了新旧架构的典型值。

深度解析ARM新架构特点:大核处理将更强、中核更省,GPU加入硬件光追 第4张

如果考虑到工艺因素,比如假设Cortex-X3采用新的TSMC 3nm工艺,对比Cortex-X2采用TSMC 4nm工艺,以及时钟频率和缓存的现有设计,新架构的性能会领先25%。

其次,是改进的Cortex-A715内核。在使用相同的半导体工艺、相同的时钟频率和缓存设计的前提下,新内核的性能只比旧设计高5%,但请注意此时的能效会比旧架构高20%。也就是说,此时它的实际功耗是Cortex-A710的87.5%,在性能略有提升的前提下省电12.5%,是一个显著的进步。

相比大核和中核的显著提升,Cortex-A510小核在新架构上的提升更加微妙。一方面,顾名思义,这个新版本的小核还是叫“Cortex-A510”,甚至连名字都没变。但另一方面,说一点都没变也不太对,因为新版小核的功耗比旧版低了5%,更重要的是这次增加了对32位应用的兼容。

深度解析ARM新架构特点:大核处理将更强、中核更省,GPU加入硬件光追 第6张

但是,请注意,这个兼容性特性是可选的,不是标准的。选择后可能会给性能带来负面影响,但具体影响在ARM并不清楚。

除了新的CPU,ARM还同时发布了替代的GPU解决方案。这次新的GPU设计分为三个等级,分别是“顶配”Immortalis -G715、中配Mali-G715、入门级Mali-G615。

相比这一代的Mali-G710和Mali-G610,新架构首先带来了基础效率15%的提升(不考虑进程增益),其次还支持VRS可变明暗率技术,可以显著降低一些高刷游戏中的渲染负载,对XR应用意义重大。

再者,作为ARM的全新旗舰GPU产品,Immortalis-G715首次引入硬件光线追踪单元。ARM表示,硬件光学追踪单元只占用GPU核心的4%,但相比Mali-G710采用的软件光学追踪设计,可以带来300%以上的性能提升。考虑到真正支持Mali-G710追光效果的游戏还没有上市,ARM的这个说法就是“背刺”自己。

架构分析:大核更大,中核减法,小核原地踏步。

深度解析ARM新架构特点:大核处理将更强、中核更省,GPU加入硬件光追 第8张

谈完新架构的性能参数变化,我们再去常规架构分析,看看ARM是如何实现这些改进的。

首先是全新的大核心Cortex-X3,在这个新架构中它的变化无疑是最大的。它包括比上一代产品大10倍的L0 BTB(分支目标缓冲区)和大50%的L1 BTB,这意味着分支预测性能大大提高。根据官方说法,Cortex-X3的分支预测延迟降低12.2%,预测错误率降低6%,前一次失速降低3%。随着分支预测性能的大幅提升,现在可以将Cortex-X3的mop(微操作)缓存做得更小,流水线长度进一步减少。

这还不是全部。与Cortex-X2相比,现在Cortex-X3的指令缓存取指宽度从5增加到6,算术逻辑单元从4增加到6,乱序窗口进一步扩大。在后端,新架构的加载/存储宽度也增加了50%,并且增加了数据预取引擎的数量。

强大的分支预测性能、更宽的执行窗口、更短的流水线级和更快的访问速度。有没有似曾相识的感觉?没错,这个改进方向其实是多年前英特尔从奔腾4到酷睿的创新所证明的一条有效路径,只不过现在ARM已经在RISC处理器上“重现”了。

与Cortex-X3的进取精神相比,Cortex-A715与(新版)Cortex-A510的变化相对较小。其中,Cortex-A715的改进主要来自于放弃了对32位指令集的支持,从而大大简化了指令解码器的设计,腾出更多的晶体管位置来增加缓存大小。Cortex-A510的变化就更模糊了。现在我们只知道它有可选的32位支持,功耗略有降低。

相比CPU(尤其是大核)的变化,ARM的新GPU变化并没有那么显著。一方面,无论是Immortalis-G715、Mali-G715还是Mali-G615,都有着相同的架构设计(除了Immortalis-G715内部有更多的硬件光追迹电路之外),主要的区别是核数明显受限。

另一方面,与现有的Mali-G710相比,新GPU在基础架构中增加了一倍的FMA乘加单元,并设计了新的FP16计算单元用于反走样。同时,据ARM介绍,新GPU“在重载场景下”的三角形生成速率是现有GPU的3倍,纹理贴图速度是现有GPU的2倍。不过暂时不清楚这个倍数是来自于底层架构的提升还是核心数量或频率的提升,只是做个参考。真正的GPU性能提升要等实际产品上市才能确定。

市场分析:ARM笔记本将崛起,入门级手机有望翻身。

值得一提的是,在发布新一代产品线的同时,ARM还为自己的软硬件解决方案起了一个新名字,叫做“Arm Total Compute Solutions(直译为ARM Total Computing Solutions)2022”,缩写为ARM TCS22。同时,ARM还将去年发布的上一代架构“集成”到ARM TCS21中,同时公布了明年(TCS23)和后年(TCS24)的产品名称。

这是什么意思?从这一举动中,我们至少可以挖掘出两个信息点。第一,ARM似乎并不打算用新架构完全取代上一代的产品线。Cortex-X2、A710和A510已被“重命名”,或者它们的授权将继续。

但再进一步,ARM从TCS21到TCS22的变化,以及目前官方已经“剧透”的TCS23和TCS24,也不难发现。一方面,ARM在TCS22(即这一代的新架构)中删除了Cortex-A715对32位计算的支持,同时在“新版本”Cortex-A510小核中加入了“可选”。

另一方面,从TCS23和TCS24的预告图中可以明显看出,ARM在未来两年内每年都会更新大核和中核的设计,而小核在2023年才会更换一次,2024年就不会更新直接使用了。

同时,在TCS22的官方“模型设计”中,ARM不仅将新架构支持的核心数上限从8核扩大到12核,还给出多种以大核和芯核为主的组合方案,甚至出现了完全不使用A510小核,仅由大核和芯核组成的“超高性能设计”。

这可能意味着ARM“依赖”新架构,尤其是大核(Cortex-X3)和中核(Cortex-A715)性能和能效比的显著提升,显然意在将其推向更高的市场地位。或许,在未来,我们会看到更多基于全新ARM架构的笔记本SoC解决方案。

其实回顾历史不难发现,之前的Cortex-A53架构用了四年(2014-2017)才被取代,而Cortex-A55架构至少“坚挺”了五年(2018-2022)。相比之下,去年的“第一版”Cortex-A510架构不适合入门级设备和其他低功耗设备,因为它与32位代码完全不兼容。

因此,今年的“新版本”Cortex-A510实际上是第一个真正可以用于ARM v9指令集下的入门级设备的低功耗CPU架构设计。最快明年就会被更新的架构取代。

换句话说,面对智能手机市场高端产品大放异彩,而入门级设备销量萎缩的局面,ARM一方面通过新大芯和中核为新旗舰注入了驱动力,另一方面又为中低端市场做出了前所未有的“补救”。

也许在不久的将来,我们会看到一个基于(新版)Cortex-A510架构的Android智能手表平台,拥有显著更可靠的入门级主控体验,或者在性能和能效比方面有显著提升,最终可以与苹果抗衡。

原文出处:声明:信息来源于原创或转载,转载此文是出于传递更多信息之目的。视点号尊重版权,请作者持权属证明与我们联系2889649679@qq.com,我们将及时更正、删除,谢谢!

(0)
上一篇 2022年 8月 22日 上午8:23
下一篇 2022年 8月 22日 上午10:23

相关推荐

发表回复

您的电子邮箱地址不会被公开。