AnandTech 報道稱,高通去年宣布的 Cloud AI 100 推理芯片平臺,現(xiàn)已投產(chǎn)并向客戶出樣,預(yù)計 2021 上半年可實現(xiàn)商業(yè)發(fā)貨。雖然更偏向于“紙面發(fā)布”,且未能披露硬件的更多細(xì)節(jié),但借助其在移動 SoC 世界的專業(yè)知識,這也是該公司首次涉足數(shù)據(jù)中心 AI 推理加速器業(yè)務(wù)、并將之推向企業(yè)市場。

隨著芯片開始出樣,高通 Cloud AI 100 推理芯片終于從實驗室走向了現(xiàn)實,并且披露了有關(guān)其架構(gòu)設(shè)計、性能功耗目標(biāo)在內(nèi)的諸多細(xì)節(jié)。
據(jù)悉,高通為商業(yè)化部署提供了三種不同的封裝形式,包括成熟的 PCIe 4.0 x8 接口(在 75W TDP 上實現(xiàn) 400 TOPS 算力)、以及 DM.2 和 DM.2e 接口(25W / 15W TDP)。

DM.2 的外形類似于彼此相鄰的兩個 M.2 連接器,在企業(yè)市場上頗受歡迎。DM.2e 則是體型更小,封裝功耗也更低。
從架構(gòu)的角度來看,該設(shè)計借鑒了高通在驍龍移動 SoC 上部署的神經(jīng)處理單元(NPU)的豐富經(jīng)驗,但仍基于一種完全針對企業(yè)工作負(fù)載而優(yōu)化的獨特架構(gòu)設(shè)計。

與當(dāng)前的通用計算硬件(CPU / GPU / FPGA)相比,專用型 AI 設(shè)計的最大優(yōu)勢,在于能夠?qū)崿F(xiàn)“傳統(tǒng)”平臺難以企及的更高的性能和能效目標(biāo)。
性能數(shù)據(jù)方面,高通拿目前業(yè)內(nèi)常用的解決方案進行了對比,包括英特爾 Goya 和英偉達(dá) T4 推理加速器(基于砍了一刀的 TU104 GPU 芯片),每瓦每秒的推理能力為 ResNet-50 。

據(jù)說 Cloud AI 100 在每瓦性能上較競品實現(xiàn)了重大飛越,且高通在另一幅圖表中展示了一個相對公平的比較。
有趣的說法是,其甚至能夠在 75W 的 PCIe 外形尺寸內(nèi)擊敗英偉達(dá) Ampere 架構(gòu)的 250W A100 加速器。且在功耗降低 25% 的情況下,性能還較英特爾 Goya 加速器翻了一番。

這樣的性能數(shù)據(jù),讓許多人覺得難以置信,不過從 Cloud A100 的芯片規(guī)格來看,事情其實并不簡單。該芯片包含了 16 組 AI 內(nèi)核,和達(dá)成 400 TOPS 的 INT8 推理吞吐量。
輔以 4 路 @ 64-bit 的 LPDDR4X-4200(2100MHz)的內(nèi)存控制器,每個控制器管著 4 個 16-bit 通道,總系統(tǒng)帶寬達(dá) 134 GB/s 。

如果你對當(dāng)前的 AI 加速器設(shè)計比較熟悉,就知道它與英偉達(dá) A100 和英特爾 Goya 等推理加速器競品的帶寬有較大差距,因為后者具有高帶寬緩存(HBM2)和高達(dá) 1-1.6 TB/s 的帶寬。
即便如此,高通還是設(shè)法為 Cloud AI 100 平臺配備了 144MB 的片上 SRAM 高速緩存,以達(dá)成盡可能高的存儲流量。

高通承認(rèn),在工作負(fù)載的內(nèi)存空間占用超過片上 SRAM 的情況下,該架構(gòu)的性能將有所不同。但對于目標(biāo)客戶來說,這樣的平衡設(shè)計,仍是有意為之。
后續(xù)該公司還展望了更大的內(nèi)核、以及在多個 Cloud AI 100 加速器之間橫向擴展。在被問及如何達(dá)成 15W 至 75W 的動態(tài)功耗范圍時,高通宣稱其正在調(diào)整頻率 / 電壓曲線,以及調(diào)制 AI 核心的數(shù)量。

想象一下,一套完整的 400 TOPS 75W 設(shè)計,包含了一個工作頻率較高的芯片。而 15W TDP 的版本,可能以較低的頻率在運行。與此同時,7nm 的工藝節(jié)點,有助于其進一步降低功耗。
精度方面,Cloud AI 100 的架構(gòu)體系支持 INT8 / INT16 和 FP16 / FP32 精度,能夠帶來足夠的靈活性。高通還提供了一組 SDK,以便為各項行業(yè)標(biāo)準(zhǔn)提供交換格式和框架支持。

高通公司目前正在向客戶提供 Cloud AI 100 推理加速器的樣品,主要部署目標(biāo)為工業(yè)和商業(yè)領(lǐng)域中的邊緣推理工作負(fù)載。
為推動生態(tài)系統(tǒng)和為軟件開發(fā)提供支持,該公司還推出了新的 Cloud Edge AI 100 開發(fā)套件,其中包括了一個集成該加速器的小型計算設(shè)備、驍龍 865 SoC、以及用于蜂窩連接的 X55 5G 調(diào)制解調(diào)器。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。
相關(guān)推薦
- 海外廣告聯(lián)盟評測:日付平臺與CPV模式如何高效變現(xiàn)?
- 華納云618大促,166元買8H16G5M香港cn2云服務(wù)器,大帶寬服務(wù)器688起
- RAKsmart防護配置實戰(zhàn):10Gbps套餐部署指南
- 什么是遞歸解析服務(wù)器?與其他DNS服務(wù)器有啥區(qū)別
- 什么是遞歸解析服務(wù)器?與其他DNS服務(wù)器有啥區(qū)別
- 如何利用RAKsmart服務(wù)器實現(xiàn)高效多站點部署方案
- 華納云香港高防服務(wù)器150G防御4.6折促銷,低至6888元/月,CN2大帶寬直連清洗,終身循環(huán)折扣
- RakSmart服務(wù)器成本優(yōu)化策略