Arm Cortex-X4,这是该公司的下一代旗舰性能核心,也是迄今为止设计的最高性能Arm核心。
(资料图片)
据了解,新发布的 Cortex-X4 超大核相比 Cortex-X3 在性能上提升了 15% 左右,但是在能耗方面有比较大的改善,宣称在相同频率下可以降低 40% 的功耗。而 A720 作为 A715 性能核心的升级迭代版本,效率提升了 20%。Cortex-A520 相比上代的 Cortex-A510 效率提升 22%。
网上此前已经爆出骁龙 8 Gen 3 采用的是 1+5+2 的丛集结构,其中 "1" 指的是 Cortex-X4 超大核,而 "5" 猜测是 Cortex-A720 性能核心,而 "3" 则是 Cortex-A520 的能效核心,安兔兔跑分更是达到了 160 万分,相比骁龙 8 Gen 2 提升明显。而天玑 9300 处理器预计同样会采用 ARM 发布的新移动处理器内核,性能表现令人期待。
Arm表示,Cortex-X4的前端已经发生了一些重大变化。指令获取传递已经被完全重新设计了。与Cortex-A715一样,Cortex-X似乎也紧随其后,也完全放弃了宏操作缓冲区。相反,Cortex-X4拓宽了流水线,支持多达10条指令。指令缓存也得到了相应的增强。带宽增加到每周期10条指令。
新的分支预测器的准确性也得到了提高,在实际工作负载中观察到的停滞现象明显减少。随着指令高速缓存和宏操作高速缓存的变化,分支预测错误的惩罚被统一起来,并减少到10个周期。
后端部分也得到了增强。在执行单元的整数方面,Arm将之前几代的MUL单元更新为完整的MAC单元。这意味着X4现在有2个整数MAC单元。还增加了第三个分支单元。最后,还添加了两个额外的整数ALU,总共有8个——其中6个位于专用流水线上。
Cortex-X4的乱序缓冲区从Cortex-X3的320增加了20%,达到了384个。事实上,Arm每一代都会将ROB增加10%至30%左右。从一个角度来看,Cortex-X4的ROB现在比英特尔的Sunny Cove核心更大,后者只有352个条目,尽管远远不及令人惊叹的Golden Cove的512个条目ROB。
在浮点数方面,Arm对除法器/平方根单元进行了完全流水线化。管道和单元本身保持不变。
在内存子系统方面,Arm重新平衡了流水线。以前,Cortex-X3具有两个通用的地址生成单元(AGU)和一个专用的加载AGU,而现在的Cortex-X4只有一个通用AGU,同时配备了两个加载AGU和一个存储AGU。
Cortex-X4上的私有L2缓存也得到了扩大。系统集成商现在可以选择集成高达2 MiB的L2缓存,这将使L2缓存与上一代相比翻倍。如果需要的话,在更受限制的环境下,系统设计师可以选择使用较小的缓存大小。Arm表示,较大缓存不会增加延迟。这个选项可以在具有大内存占用的应用程序中实现更高的性能,因为它可以更频繁地引用靠近核心的内存。
总的来说,Cortex-X4在ISO频率和L3(尽管具有较大的L2缓存)方面提供了约13%的IPC改进。