欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            AnandTech 報道稱,高通去年宣布的 Cloud AI 100 推理芯片平臺,現(xiàn)已投產(chǎn)并向客戶出樣,預(yù)計 2021 上半年可實現(xiàn)商業(yè)發(fā)貨。雖然更偏向于“紙面發(fā)布”,且未能披露硬件的更多細(xì)節(jié),但借助其在移動 SoC 世界的專業(yè)知識,這也是該公司首次涉足數(shù)據(jù)中心 AI 推理加速器業(yè)務(wù)、并將之推向企業(yè)市場。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            隨著芯片開始出樣,高通 Cloud AI 100 推理芯片終于從實驗室走向了現(xiàn)實,并且披露了有關(guān)其架構(gòu)設(shè)計、性能功耗目標(biāo)在內(nèi)的諸多細(xì)節(jié)。

            據(jù)悉,高通為商業(yè)化部署提供了三種不同的封裝形式,包括成熟的 PCIe 4.0 x8 接口(在 75W TDP 上實現(xiàn) 400 TOPS 算力)、以及 DM.2 和 DM.2e 接口(25W / 15W TDP)。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            DM.2 的外形類似于彼此相鄰的兩個 M.2 連接器,在企業(yè)市場上頗受歡迎。DM.2e 則是體型更小,封裝功耗也更低。

            從架構(gòu)的角度來看,該設(shè)計借鑒了高通在驍龍移動 SoC 上部署的神經(jīng)處理單元(NPU)的豐富經(jīng)驗,但仍基于一種完全針對企業(yè)工作負(fù)載而優(yōu)化的獨特架構(gòu)設(shè)計。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            與當(dāng)前的通用計算硬件(CPU / GPU / FPGA)相比,專用型 AI 設(shè)計的最大優(yōu)勢,在于能夠?qū)崿F(xiàn)“傳統(tǒng)”平臺難以企及的更高的性能和能效目標(biāo)。

            性能數(shù)據(jù)方面,高通拿目前業(yè)內(nèi)常用的解決方案進行了對比,包括英特爾 Goya 和英偉達(dá) T4 推理加速器(基于砍了一刀的 TU104 GPU 芯片),每瓦每秒的推理能力為 ResNet-50 。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            據(jù)說 Cloud AI 100 在每瓦性能上較競品實現(xiàn)了重大飛越,且高通在另一幅圖表中展示了一個相對公平的比較。

            有趣的說法是,其甚至能夠在 75W 的 PCIe 外形尺寸內(nèi)擊敗英偉達(dá) Ampere 架構(gòu)的 250W A100 加速器。且在功耗降低 25% 的情況下,性能還較英特爾 Goya 加速器翻了一番。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            這樣的性能數(shù)據(jù),讓許多人覺得難以置信,不過從 Cloud A100 的芯片規(guī)格來看,事情其實并不簡單。該芯片包含了 16 組 AI 內(nèi)核,和達(dá)成 400 TOPS 的 INT8 推理吞吐量。

            輔以 4 路 @ 64-bit 的 LPDDR4X-4200(2100MHz)的內(nèi)存控制器,每個控制器管著 4 個 16-bit 通道,總系統(tǒng)帶寬達(dá) 134 GB/s 。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            如果你對當(dāng)前的 AI 加速器設(shè)計比較熟悉,就知道它與英偉達(dá) A100 和英特爾 Goya 等推理加速器競品的帶寬有較大差距,因為后者具有高帶寬緩存(HBM2)和高達(dá) 1-1.6 TB/s 的帶寬。

            即便如此,高通還是設(shè)法為 Cloud AI 100 平臺配備了 144MB 的片上 SRAM 高速緩存,以達(dá)成盡可能高的存儲流量。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            高通承認(rèn),在工作負(fù)載的內(nèi)存空間占用超過片上 SRAM 的情況下,該架構(gòu)的性能將有所不同。但對于目標(biāo)客戶來說,這樣的平衡設(shè)計,仍是有意為之。

            后續(xù)該公司還展望了更大的內(nèi)核、以及在多個 Cloud AI 100 加速器之間橫向擴展。在被問及如何達(dá)成 15W 至 75W 的動態(tài)功耗范圍時,高通宣稱其正在調(diào)整頻率 / 電壓曲線,以及調(diào)制 AI 核心的數(shù)量。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            想象一下,一套完整的 400 TOPS 75W 設(shè)計,包含了一個工作頻率較高的芯片。而 15W TDP 的版本,可能以較低的頻率在運行。與此同時,7nm 的工藝節(jié)點,有助于其進一步降低功耗。

            精度方面,Cloud AI 100 的架構(gòu)體系支持 INT8 / INT16 和 FP16 / FP32 精度,能夠帶來足夠的靈活性。高通還提供了一組 SDK,以便為各項行業(yè)標(biāo)準(zhǔn)提供交換格式和框架支持。

          高通Cloud AI 100平臺開始出樣:75W實現(xiàn)400TOPS算力

            高通公司目前正在向客戶提供 Cloud AI 100 推理加速器的樣品,主要部署目標(biāo)為工業(yè)和商業(yè)領(lǐng)域中的邊緣推理工作負(fù)載。

            為推動生態(tài)系統(tǒng)和為軟件開發(fā)提供支持,該公司還推出了新的 Cloud Edge AI 100 開發(fā)套件,其中包括了一個集成該加速器的小型計算設(shè)備、驍龍 865 SoC、以及用于蜂窩連接的 X55 5G 調(diào)制解調(diào)器。

          特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號