當前位置:編程學習大全網 - 編程語言 - 深度解讀ARM新架構:大核進取、小核擺爛?

深度解讀ARM新架構:大核進取、小核擺爛?

眾所周知,對於如今的絕大多數的智能手機、平板電腦,以及部分筆記本電腦產品來說,ARM可以說是“壹切的源頭”。高通與三星的SoC近年來壹直使用著ARM公版的CPU設計,而被公認“翻身”了的聯發科,則靠的是ARM公版的CPU與GPU架構,甚至就連壹向標榜“自研”的蘋果,實際上也離不開ARM的基礎指令集授權。

正因如此,當ARM方面在2022年6月28日晚間,毫無預兆地突然發布了全新壹代的架構方案後,自然也值得我們去進行進壹步的分析。

性能概況:大核更強、中核更省,GPU加入硬件光追

開門見山,我們先直接為大家帶來ARM這壹代新架構的性能相關信息。並且非常令人感嘆的是,ARM此次在公布新老架構性能對比數據時居然不再“玩巧”,事實上,他們給出了可能是史上最詳細的性能對比參數。

首先,是全新的Cortex-X3大核。在使用了完全相同半導體制程、主頻和緩存設計的前提下,Cortex-X3的性能比Cortex-X2可以提升11%。

在使用完全相同半導體制程,但主頻和緩存設計按照新老架構的不同典型值做對比時,Cortex-X3的性能比Cortex-X2可提升22%。

如果再考慮到制程方面的因素,比如假設Cortex-X3采用新的臺積電3nm工藝情況下,此時對比采用臺積電4nm工藝、且主頻與緩存采用現有設計的Cortex-X2時,那麽新架構的性能領先幅度則會達到25%。

其次,是改進型的Cortex-A715中核,在使用相同半導體制程、相同主頻和緩存設計的前提下,新的中核性能相比老設計僅有5%的提升,但請註意,此時的能效會比老架構高出20%。也就是說其實際功耗此時為Cortex-A710的87.5%,在性能略微提升的前提下省電了12.5%,算是比較明顯的進步了。

相比於大核與中核的顯著改進,新架構裏Cortex-A510小核的改進就比較微妙了。壹方面,正如其名稱所示的那樣,此次的新版小核還是叫做“Cortex-A510”,連名字都沒變。但另壹方面,要說它完全沒改又不太對,因為新版的小核功耗比老版本下降了5%,同時更為重要的是,其此次加上了對32位應用的兼容性。

但請註意的是,這個兼容性功能是可選特性,並非標配。選配後是有可能會給性能帶來負面影響的,但具體影響有多少,ARM方面並沒有明確。

除了新版的CPU,ARM此次也同期發布了換代的GPU方案。這壹次,新的GPU設計被分為了三檔,分別是“頂配”的Immortalis(不朽)-G715、中配的Mali-G715,以及入門級的Mali-G615。

與本世代的Mali-G710和Mali-G610相比,新架構首先帶來了15%的基礎效率提升(而且是不考慮制程增益的情況下),其次還支持了VRS可變著色率技術,能夠在部分高刷 遊戲 中顯著降低渲染負載、對於XR應用也有很大的意義。

不僅如此,作為ARM的全新旗艦GPU產品,Immortalis-G715更是首次引入了硬件光線追蹤單元。根據ARM方面的說法,硬件光追單元在GPU核心中僅占據了4%的面積,但其相比Mali-G710采用的軟件光追設計卻能夠帶來300%以上的性能提升。考慮到真正支持Mali-G710光追效果的 遊戲 至今尚未上市,所以ARM的這番表述屬實是“背刺”自己了。

架構分析:大核更大、中核做減法,小核原地踏步

講完了新架構的性能參數變化,接下來我們就進入按慣例的架構分析環節,來看看ARM到底是如何實現這些改進的。

首先是全新的大核Cortex-X3,它的改動無疑是此次新架構中最大的。其包括了比前代大10倍的L0 BTB(分支目標緩沖區)和大50%的L1 BTB,這意味著大幅提高的分支預測性能。根據官方的說法,Cortex-X3的分支預測延遲降低了12.2%,預測錯誤率降低了6%,同時減少了3%的前段停頓。由於分支預測性能大為提升,因此Cortex-X3的mop(微操作)緩存現在可以做得更小,同時流水線長度也進壹步下降。

這還沒完,與Cortex-X2相比,Cortex-X3的指令緩存提取寬度現在從5增加到了6、算術邏輯單元從4個增加到了6個,同時亂序窗口也進壹步增大。而在後端部分,新架構的加載/存儲寬度也增加了50%,並增多了數據預取引擎的數量。

更強的分支預測性能,更寬的執行窗口、更短的流水線級別,更快的存取速度,有沒有覺得很眼熟?沒錯,這個改進方向,其實就是多年前已被Intel從奔騰4到酷睿的革新時,所證明的有效路徑,只不過ARM如今將其在RISC處理器上“復刻”了壹遍。

相比於Cortex-X3的銳意進取,Cortex-A715與(新版)Cortex-A510的改變就相對沒有那麽大了。其中,Cortex-A715的改進主要來自於放棄對32位指令集的支持,從而大幅簡化了指令解碼器的設計,空出更多的晶體管位置來提高了緩存大小。而Cortex-A510的變化則更是語焉不詳,現在只知道它具備了可選的32位支持、同時功耗略微下降而已。

與CPU部分(特別是大核心)的改動相比,ARM此次的新GPU變化顯得就不是那麽顯著了。壹方面,無論是Immortalis-G715、Mali-G715,還是Mali-G615,它們其實都是***享的相同架構設計(只是Immortalis-G715內部多了硬件光追電路),主要區別還是在於核心數量上做了明確限制。

另壹方面,與現有的Mali-G710相比,新款GPU在基礎架構上將FMA乘加單元的數量翻了壹倍,設計了用於抗鋸齒的新型FP16計算單元。同時根據ARM方面的說法,新的GPU“在重負載場景下”的三角形生成率為現有的3倍,紋理映射速度是現有的2倍。不過,暫時還並不清楚這個倍數是來自底層架構的改進,還是來自於核心數量或頻率的提升,因此僅僅做個參考就好。真正的GPU性能提升幅度,還得等到實際產品上市後才能有定論。

市場分析:ARM筆記本或將興起,入門手機也有望翻身

值得壹提的是,在發布新壹代產品線的同時,ARM還給自家的軟硬件方案起了壹個新的名字,叫做“Arm Total Compute Solutions(直譯為ARM整體計算解決方案)2022”,縮寫為ARM TCS22。同時,ARM方面也將去年發布的上代架構隨之“整合”為ARM TCS21,並同時預告了明年(TCS23)和後年(TCS24)的產品命名。

這意味著什麽呢?從這個舉動中,我們至少可以挖掘出兩條信息點。壹是ARM似乎並不打算用新架構完全取代上壹代的產品線,Cortex-X2、A710和A510得到“重命名”或意味著它們的授權還將繼續。

但更進壹步來說,ARM從TCS21到TCS22的變化,以及目前官方已經“劇透”的TCS23和TCS24不難發現,壹方面ARM在TCS22(也就是這壹代的新架構上)刪除了中核(Cortex-A715)對32位計算的支持,同時為“新版的”Cortex-A510小核增加了“可選的”32位計算功能。

另壹方面,在TCS23和TCS24的預告圖裏可以清楚地看到,接下來的兩年裏,ARM每年都會更新大核與中核設計,但小核卻只會在2023年迎來壹次換代,2024年則是不更新、直接沿用。

與此同時,在此次TCS22官方“樣板設計”中,ARM不僅將新架構支持的最大核心數量從8核擴展到了12核,而且還給出了多個以大核、中核為主的組合方案,甚至出現了完全不采用A510小核,僅由大核與中核構成的“超高性能設計”。

這或許意味著,ARM“仗著”新架構,特別是大核(Cortex-X3)、中核(Cortex-A715)性能與能效比的顯著改善,明顯在有意將其往更高的市場定位上推。或許,未來我們就會看到更多基於ARM新架構的筆記本電腦SoC方案了。

其實回溯 歷史 不難發現,此前的Cortex-A53架構用了四年(2014-2017)才換代,而Cortex-A55架構更是“堅挺”了至少五年(2018-2022)之久。相比之下,去年的“初版”Cortex-A510架構因為完全不兼容32位代碼,其實並不適合入門級設備與其他低功耗設備使用。

如此壹來,今年的“新版”Cortex-A510實際上才是ARM v9指令集下,第壹款真正可以用於入門級設備的低功耗CPU架構設計。而最快到明年,它就將會被更新的架構所取代。

換句話來說,面對如今智能手機市場高端產品大放光彩、而入門級設備卻銷量萎縮的局面,ARM壹方面通過新的大核、中核為新旗艦註入了體驗繼續進步的動力,另壹方面也史無前例地針對低端市場進行了“補救”。

或許在不久後,我們就會看到基於(新版)Cortex-A510架構,體驗明顯更加靠譜的入門級主控,或是性能與能效比都大幅進步,總算能與蘋果掰掰手腕的Android智能手表平臺了。

  • 上一篇:vb編程教程(從入門到精通)
  • 下一篇:我想學習網絡編程,軟件開發,還有電腦編程.(自學網絡編程)
  • copyright 2024編程學習大全網