找回密码
 会员注册
查看: 4|回复: 0

arm大小端模式(arm处理器大小端模式)

[复制链接]

2万

主题

0

回帖

6万

积分

超级版主

积分
64454
发表于 昨天 23:56 | 显示全部楼层 |阅读模式
众所周知,对于如今的绝大多数的智能手机、平板电脑,以及部分笔记本电脑产品来说,ARM可以说是一切的源头。高通与三星的SoC近年来一直使用着ARM公版的CPU设计,而被公认翻身了的联发科,则靠的是ARM公版的CPU与GPU架构,甚至就连一向标榜自研的苹果,实际上也离不开ARM的基础指令集授权。 正因如此,当ARM方面在2022年6月28日晚间,毫无预兆地突然发布了全新一代的架构方案后,自然也值得我们去进行进一步的分析。 性能概况:大核更强、中核更省,GPU加入硬件光追 开门见山,我们先直接为大家带来ARM这一代新架构的性能相关信息。并且非常令人感叹的是,ARM此次在公布新老架构性能对比数据时居然不再玩巧,事实上,他们给出了可能是史上最详细的性能对比参数。 首先,是全新的Cortex-X3大核。在使用了完全相同半导体制程、主频和缓存设计的前提下,Cortex-X3的性能比Cortex-X2可以提升11%。 在使用完全相同半导体制程,但主频和缓存设计按照新老架构的不同典型值做对比时,Cortex-X3的性能比Cortex-X2可提升22%。 如果再考虑到制程方面的因素,比如假设Cortex-X3采用新的台积电3nm工艺情况下,此时对比采用台积电4nm工艺、且主频与缓存采用现有设计的Cortex-X2时,那么新架构的性能领先幅度则会达到25%。 其次,是改进型的Cortex-A715中核,在使用相同半导体制程、相同主频和缓存设计的前提下,新的中核性能相比老设计仅有5%的提升,但请注意,此时的能效会比老架构高出20%。也就是说其实际功耗此时为Cortex-A710的87.5%,在性能略微提升的前提下省电了12.5%,算是比较明显的进步了。 相比于大核与中核的显著改进,新架构里Cortex-A510小核的改进就比较微妙了。一方面,正如其名称所示的那样,此次的新版小核还是叫做Cortex-A510,连名字都没变。但另一方面,要说它完全没改又不太对,因为新版的小核功耗比老版本下降了5%,同时更为重要的是,其此次加上了对32位应用的兼容性。 但请注意的是,这个兼容性功能是可选特性,并非标配。选配后是有可能会给性能带来负面影响的,但具体影响有多少,ARM方面并没有明确。 除了新版的CPU,ARM此次也同期发布了换代的GPU方案。这一次,新的GPU设计被分为了三档,分别是顶配的Immortalis(不朽)-G715、中配的Mali-G715,以及入门级的Mali-G615。 与本世代的Mali-G710和Mali-G610相比,新架构首先带来了15%的基础效率提升(而且是不考虑制程增益的情况下),其次还支持了VRS可变着色率技术,能够在部分高刷游戏中显著降低渲染负载、对于XR应用也有很大的意义。 不仅如此,作为ARM的全新旗舰GPU产品,Immortalis-G715更是首次引入了硬件光线追踪单元。根据ARM方面的说法,硬件光追单元在GPU核心中仅占据了4%的面积,但其相比Mali-G710采用的软件光追设计却能够带来300%以上的性能提升。考虑到真正支持Mali-G710光追效果的游戏至今尚未上市,所以ARM的这番表述属实是背刺自己了。 架构分析:大核更大、中核做减法,小核原地踏步 讲完了新架构的性能参数变化,接下来我们就进入按惯例的架构分析环节,来看看ARM到底是如何实现这些改进的。 首先是全新的大核Cortex-X3,它的改动无疑是此次新架构中最大的。其包括了比前代大10倍的L0 BTB(分支目标缓冲区)和大50%的L1 BTB,这意味着大幅提高的分支预测性能。根据官方的说法,Cortex-X3的分支预测延迟降低了12.2%,预测错误率降低了6%,同时减少了3%的前段停顿。由于分支预测性能大为提升,因此Cortex-X3的mop(微操作)缓存现在可以做得更小,同时流水线长度也进一步下降。 这还没完,与Cortex-X2相比,Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个,同时乱序窗口也进一步增大。而在后端部分,新架构的加载/存储宽度也增加了50%,并增多了数据预取引擎的数量。 更强的分支预测性能,更宽的执行窗口、更短的流水线级别,更快的存取速度,有没有觉得很眼熟?没错,这个改进方向,其实就是多年前已被Intel从奔腾4到酷睿的革新时,所证明的有效路径,只不过ARM如今将其在RISC处理器上复刻了一遍。 相比于Cortex-X3的锐意进取,Cortex-A715与(新版)Cortex-A510的改变就相对没有那么大了。其中,Cortex-A715的改进主要来自于放弃对32位指令集的支持,从而大幅简化了指令解码器的设计,空出更多的晶体管位置来提高了缓存大小。而Cortex-A510的变化则更是语焉不详,现在只知道它具备了可选的32位支持、同时功耗略微下降而已。 与CPU部分(特别是大核心)的改动相比,ARM此次的新GPU变化显得就不是那么显著了。一方面,无论是Immortalis-G715、Mali-G715,还是Mali-G615,它们其实都是共享的相同架构设计(只是Immortalis-G715内部多了硬件光追电路),主要区别还是在于核心数量上做了明确限制。 另一方面,与现有的Mali-G710相比,新款GPU在基础架构上将FMA乘加单元的数量翻了一倍,设计了用于抗锯齿的新型FP16计算单元。同时根据ARM方面的说法,新的GPU在重负载场景下的三角形生成率为现有的3倍,纹理映射速度是现有的2倍。不过,暂时还并不清楚这个倍数是来自底层架构的改进,还是来自于核心数量或频率的提升,因此仅仅做个参考就好。真正的GPU性能提升幅度,还得等到实际产品上市后才能有定论。 市场分析:ARM笔记本或将兴起,入门手机也有望翻身 值得一提的是,在发布新一代产品线的同时,ARM还给自家的软硬件方案起了一个新的名字,叫做Arm Total Compute Solutions(直译为ARM整体计算解决方案)2022,缩写为ARM TCS22。同时,ARM方面也将去年发布的上代架构随之整合为ARM TCS21,并同时预告了明年(TCS23)和后年(TCS24)的产品命名。 这意味着什么呢?从这个举动中,我们至少可以挖掘出两条信息点。一是ARM似乎并不打算用新架构完全取代上一代的产品线,Cortex-X2、A710和A510得到重命名或意味着它们的授权还将继续。 但更进一步来说,ARM从TCS21到TCS22的变化,以及目前官方已经剧透的TCS23和TCS24不难发现,一方面ARM在TCS22(也就是这一代的新架构上)删除了中核(Cortex-A715)对32位计算的支持,同时为新版的Cortex-A510小核增加了可选的32位计算功能。 另一方面,在TCS23和TCS24的预告图里可以清楚地看到,接下来的两年里,ARM每年都会更新大核与中核设计,但小核却只会在2023年迎来一次换代,2024年则是不更新、直接沿用。 与此同时,在此次TCS22官方样板设计中,ARM不仅将新架构支持的最大核心数量从8核扩展到了12核,而且还给出了多个以大核、中核为主的组合方案,甚至出现了完全不采用A510小核,仅由大核与中核构成的超高性能设计。 这或许意味着,ARM仗着新架构,特别是大核(Cortex-X3)、中核(Cortex-A715)性能与能效比的显著改善,明显在有意将其往更高的市场定位上推。或许,未来我们就会看到更多基于ARM新架构的笔记本电脑SoC方案了。 其实回溯历史不难发现,此前的Cortex-A53架构用了四年(2014-2017)才换代,而Cortex-A55架构更是坚挺了至少五年(2018-2022)之久。相比之下,去年的初版Cortex-A510架构因为完全不兼容32位代码,其实并不适合入门级设备与其他低功耗设备使用。 如此一来,今年的新版Cortex-A510实际上才是ARM v9指令集下,第一款真正可以用于入门级设备的低功耗CPU架构设计。而最快到明年,它就将会被更新的架构所取代。 换句话来说,面对如今智能手机市场高端产品大放光彩、而入门级设备却销量萎缩的局面,ARM一方面通过新的大核、中核为新旗舰注入了体验继续进步的动力,另一方面也史无前例地针对低端市场进行了补救。 或许在不久后,我们就会看到基于(新版)Cortex-A510架构,体验明显更加靠谱的入门级主控,或是性能与能效比都大幅进步,总算能与苹果掰掰手腕的Android智能手表平台了。 【本文图片来自网络】  
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-27 15:47 , Processed in 1.254973 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表