深度解讀ARM新架構：大核進取、小核擺爛？

眾所周知，對於如今的絕大多數的智能手機、平板電腦，以及部分筆記本電腦產品來說，ARM可以說是“壹切的源頭”。高通與三星的SoC近年來壹直使用著ARM公版的CPU設計，而被公認“翻身”了的聯發科，則靠的是ARM公版的CPU與GPU架構，甚至就連壹向標榜“自研”的蘋果，實際上也離不開ARM的基礎指令集授權。

正因如此，當ARM方面在2022年6月28日晚間，毫無預兆地突然發布了全新壹代的架構方案後，自然也值得我們去進行進壹步的分析。

性能概況：大核更強、中核更省，GPU加入硬件光追

開門見山，我們先直接為大家帶來ARM這壹代新架構的性能相關信息。並且非常令人感嘆的是，ARM此次在公布新老架構性能對比數據時居然不再“玩巧”，事實上，他們給出了可能是史上最詳細的性能對比參數。

首先，是全新的Cortex-X3大核。在使用了完全相同半導體制程、主頻和緩存設計的前提下，Cortex-X3的性能比Cortex-X2可以提升11%。

在使用完全相同半導體制程，但主頻和緩存設計按照新老架構的不同典型值做對比時，Cortex-X3的性能比Cortex-X2可提升22%。

如果再考慮到制程方面的因素，比如假設Cortex-X3采用新的臺積電3nm工藝情況下，此時對比采用臺積電4nm工藝、且主頻與緩存采用現有設計的Cortex-X2時，那麽新架構的性能領先幅度則會達到25%。

其次，是改進型的Cortex-A715中核，在使用相同半導體制程、相同主頻和緩存設計的前提下，新的中核性能相比老設計僅有5%的提升，但請註意，此時的能效會比老架構高出20%。也就是說其實際功耗此時為Cortex-A710的87.5%，在性能略微提升的前提下省電了12.5%，算是比較明顯的進步了。

相比於大核與中核的顯著改進，新架構裏Cortex-A510小核的改進就比較微妙了。壹方面，正如其名稱所示的那樣，此次的新版小核還是叫做“Cortex-A510”，連名字都沒變。但另壹方面，要說它完全沒改又不太對，因為新版的小核功耗比老版本下降了5%，同時更為重要的是，其此次加上了對32位應用的兼容性。

但請註意的是，這個兼容性功能是可選特性，並非標配。選配後是有可能會給性能帶來負面影響的，但具體影響有多少，ARM方面並沒有明確。

除了新版的CPU，ARM此次也同期發布了換代的GPU方案。這壹次，新的GPU設計被分為了三檔，分別是“頂配”的Immortalis（不朽）-G715、中配的Mali-G715，以及入門級的Mali-G615。

與本世代的Mali-G710和Mali-G610相比，新架構首先帶來了15%的基礎效率提升（而且是不考慮制程增益的情況下），其次還支持了VRS可變著色率技術，能夠在部分高刷遊戲中顯著降低渲染負載、對於XR應用也有很大的意義。

不僅如此，作為ARM的全新旗艦GPU產品，Immortalis-G715更是首次引入了硬件光線追蹤單元。根據ARM方面的說法，硬件光追單元在GPU核心中僅占據了4%的面積，但其相比Mali-G710采用的軟件光追設計卻能夠帶來300%以上的性能提升。考慮到真正支持Mali-G710光追效果的遊戲至今尚未上市，所以ARM的這番表述屬實是“背刺”自己了。

架構分析：大核更大、中核做減法，小核原地踏步

講完了新架構的性能參數變化，接下來我們就進入按慣例的架構分析環節，來看看ARM到底是如何實現這些改進的。

首先是全新的大核Cortex-X3，它的改動無疑是此次新架構中最大的。其包括了比前代大10倍的L0 BTB（分支目標緩沖區）和大50%的L1 BTB，這意味著大幅提高的分支預測性能。根據官方的說法，Cortex-X3的分支預測延遲降低了12.2%，預測錯誤率降低了6%，同時減少了3%的前段停頓。由於分支預測性能大為提升，因此Cortex-X3的mop（微操作）緩存現在可以做得更小，同時流水線長度也進壹步下降。

這還沒完，與Cortex-X2相比，Cortex-X3的指令緩存提取寬度現在從5增加到了6、算術邏輯單元從4個增加到了6個，同時亂序窗口也進壹步增大。而在後端部分，新架構的加載/存儲寬度也增加了50%，並增多了數據預取引擎的數量。

更強的分支預測性能，更寬的執行窗口、更短的流水線級別，更快的存取速度，有沒有覺得很眼熟？沒錯，這個改進方向，其實就是多年前已被Intel從奔騰4到酷睿的革新時，所證明的有效路徑，只不過ARM如今將其在RISC處理器上“復刻”了壹遍。

相比於Cortex-X3的銳意進取，Cortex-A715與（新版）Cortex-A510的改變就相對沒有那麽大了。其中，Cortex-A715的改進主要來自於放棄對32位指令集的支持，從而大幅簡化了指令解碼器的設計，空出更多的晶體管位置來提高了緩存大小。而Cortex-A510的變化則更是語焉不詳，現在只知道它具備了可選的32位支持、同時功耗略微下降而已。

與CPU部分（特別是大核心）的改動相比，ARM此次的新GPU變化顯得就不是那麽顯著了。壹方面，無論是Immortalis-G715、Mali-G715，還是Mali-G615，它們其實都是***享的相同架構設計（只是Immortalis-G715內部多了硬件光追電路），主要區別還是在於核心數量上做了明確限制。

另壹方面，與現有的Mali-G710相比，新款GPU在基礎架構上將FMA乘加單元的數量翻了壹倍，設計了用於抗鋸齒的新型FP16計算單元。同時根據ARM方面的說法，新的GPU“在重負載場景下”的三角形生成率為現有的3倍，紋理映射速度是現有的2倍。不過，暫時還並不清楚這個倍數是來自底層架構的改進，還是來自於核心數量或頻率的提升，因此僅僅做個參考就好。真正的GPU性能提升幅度，還得等到實際產品上市後才能有定論。

市場分析：ARM筆記本或將興起，入門手機也有望翻身

值得壹提的是，在發布新壹代產品線的同時，ARM還給自家的軟硬件方案起了壹個新的名字，叫做“Arm Total Compute Solutions（直譯為ARM整體計算解決方案）2022”，縮寫為ARM TCS22。同時，ARM方面也將去年發布的上代架構隨之“整合”為ARM TCS21，並同時預告了明年（TCS23）和後年（TCS24）的產品命名。

這意味著什麽呢？從這個舉動中，我們至少可以挖掘出兩條信息點。壹是ARM似乎並不打算用新架構完全取代上壹代的產品線，Cortex-X2、A710和A510得到“重命名”或意味著它們的授權還將繼續。

但更進壹步來說，ARM從TCS21到TCS22的變化，以及目前官方已經“劇透”的TCS23和TCS24不難發現，壹方面ARM在TCS22（也就是這壹代的新架構上）刪除了中核（Cortex-A715）對32位計算的支持，同時為“新版的”Cortex-A510小核增加了“可選的”32位計算功能。

另壹方面，在TCS23和TCS24的預告圖裏可以清楚地看到，接下來的兩年裏，ARM每年都會更新大核與中核設計，但小核卻只會在2023年迎來壹次換代，2024年則是不更新、直接沿用。

與此同時，在此次TCS22官方“樣板設計”中，ARM不僅將新架構支持的最大核心數量從8核擴展到了12核，而且還給出了多個以大核、中核為主的組合方案，甚至出現了完全不采用A510小核，僅由大核與中核構成的“超高性能設計”。

這或許意味著，ARM“仗著”新架構，特別是大核（Cortex-X3）、中核（Cortex-A715）性能與能效比的顯著改善，明顯在有意將其往更高的市場定位上推。或許，未來我們就會看到更多基於ARM新架構的筆記本電腦SoC方案了。

其實回溯歷史不難發現，此前的Cortex-A53架構用了四年（2014-2017）才換代，而Cortex-A55架構更是“堅挺”了至少五年（2018-2022）之久。相比之下，去年的“初版”Cortex-A510架構因為完全不兼容32位代碼，其實並不適合入門級設備與其他低功耗設備使用。

如此壹來，今年的“新版”Cortex-A510實際上才是ARM v9指令集下，第壹款真正可以用於入門級設備的低功耗CPU架構設計。而最快到明年，它就將會被更新的架構所取代。

換句話來說，面對如今智能手機市場高端產品大放光彩、而入門級設備卻銷量萎縮的局面，ARM壹方面通過新的大核、中核為新旗艦註入了體驗繼續進步的動力，另壹方面也史無前例地針對低端市場進行了“補救”。

或許在不久後，我們就會看到基於（新版）Cortex-A510架構，體驗明顯更加靠譜的入門級主控，或是性能與能效比都大幅進步，總算能與蘋果掰掰手腕的Android智能手表平臺了。

上一篇:vb編程教程（從入門到精通）

下一篇:我想學習網絡編程,軟件開發,還有電腦編程.(自學網絡編程)

官渡區公司註冊:普華金融機器人起步效率驚人。

計算機類專業都有什麽區別，值得報考嗎？