4月18日,以“AI for All,讓世界充滿AI”為主題的聯(lián)想創(chuàng)新科技大會(2024 Lenovo Tech World)在上海舉辦。
聯(lián)想集團副總裁、聯(lián)想中國基礎設施業(yè)務群總經(jīng)理陳振寬以《異構智算 釋放AI基礎設施新動能》為主題進行了演講,分享聯(lián)想在AI基礎設施領域的戰(zhàn)略布局、核心能力與技術創(chuàng)新成果。
“在人工智能1.0時代,基于全球智慧和本地創(chuàng)新,聯(lián)想打造了全面的基礎設施產(chǎn)品組合,包括計算、存儲、網(wǎng)絡、邊緣和超融合,并在通用計算、科學計算和AI計算等不同算力領域獲得大量的最佳實踐,幫助千行百業(yè)的客戶取得成功。”陳振寬表示,如今大模型開啟的AI 2.0時代已經(jīng)邁著大步朝我們走來,我們需要重塑過去積累的技術,來升級聯(lián)想基礎設施。
聯(lián)想集團副總裁、聯(lián)想中國基礎設施業(yè)務群總經(jīng)理陳振寬
為解決用戶面臨的挑戰(zhàn),聯(lián)想AI基礎設施將聚焦三大領域?qū)崿F(xiàn)科技創(chuàng)新,即超強算力、核心算法和液冷創(chuàng)新,釋放AI基礎設施新動能。他介紹說,基于三大領域,聯(lián)想已經(jīng)積累了八項核心能力,包括高性能、高可靠性以及液冷技術等。他重點分享了針對AI 2.0時代的五大創(chuàng)新技術,包括:算力匹配魔方、GPU內(nèi)核態(tài)虛擬化、聯(lián)想集合通信算法庫、AI高效斷點續(xù)訓技術、AI與HPC集群超級調(diào)度器。
此外,陳振寬在大會上正式發(fā)布了聯(lián)想萬全異構智算平臺。“聯(lián)想萬全異構智算平臺是AI 2.0時代聯(lián)想中國基礎設施戰(zhàn)略框架的核心。”他說,作為聯(lián)想“全棧AI”戰(zhàn)略布局的中堅力量,聯(lián)想中國基礎設施業(yè)務正以“一橫五縱”戰(zhàn)略框架,通過構建布局完整、穩(wěn)定高效的AI導向的基礎設施,為企業(yè)智能化轉(zhuǎn)型打造堅實可靠的智算底座。
聯(lián)想AI基礎設施聚焦三領域,應對AI 2.0時代的算力挑戰(zhàn)
過去40年,聯(lián)想積累了包括全球供應能力、全球研發(fā)能力以及全球生態(tài)能力的全球智慧,并引領了一個又一個的中國IT技術發(fā)展浪潮。在通用計算領域,聯(lián)想的x86服務器可靠性連續(xù)9年第一,截至2023年底已斬獲536項性能世界紀錄;在科學計算領域,聯(lián)想9次實現(xiàn)中國HPCTOP 100 NO.1,助力中國在科學計算、仿真、氣象等前沿領域的創(chuàng)新突破;聯(lián)想基于中國特色需求設計了完整AI基礎設施組合,助力中國客戶贏得AI 1.0時代的發(fā)展。
在AI 2.0時代,AI大模型具備超強的泛化、生成能力,促使人工智能進入更廣的應用場景和更深的業(yè)務流程中。陳振寬提到,在制造、金融、醫(yī)療、交通、能源、政府等各行業(yè)中,大模型在產(chǎn)品設計、金融評估、辦公輔助、自動駕駛、能源調(diào)配等方方面面,顛覆式地改變生產(chǎn)方式,極速促進生產(chǎn)效率。然而,陳振寬也認為,隨著AI 2.0時代對于AI算力的需求快速增加,算力使用者在使用AI基礎設施的時候正在面臨巨大的挑戰(zhàn)。
陳振寬進一步介紹了AI 2.0時代用戶在AI基礎設施領域面臨四大挑戰(zhàn):
如何選擇和匹配算力是第一大挑戰(zhàn)。陳振寬指出,目前已經(jīng)有五種以上主流算法框架和十種以上算子庫來支持不同的應用場景。同時,不同類型的GPU、服務器、存儲和網(wǎng)絡組成了上百種不同的集群配置。場景、算法和集群之間的選擇和驗證,不但技術繁雜而且周期長。
其次是如何減少故障中斷時間。陳振寬強調(diào),目前千卡集群每月至少有15次的故障斷點。在常規(guī)的斷點續(xù)訓手段下,每次恢復訓練需要幾個小時,產(chǎn)生的額外費用超過百萬元。隨著AI集群規(guī)模從千卡到萬卡,故障中斷次數(shù)及恢復所需時間呈指數(shù)級增長。
第三大挑戰(zhàn)是如何改善AI算力利用率。陳振寬引用行業(yè)通用的指標MFU(模型算力利用率)來作闡述,他指出當前業(yè)內(nèi)MFU普遍在30%左右,頂尖的集群利用率也只能做到50%。行業(yè)需要解決GPU卡利用率,集群通訊效率,AI故障恢復,算法匹配度等系統(tǒng)性問題。
第四大挑戰(zhàn)是如何突破散熱瓶頸,降低PUE。陳振寬指出,在算力升級帶來的能耗飆升的情況下,如何通過先進的散熱技術,突破芯片在系統(tǒng)中的散熱瓶頸,同時提升能效,降低數(shù)據(jù)中心PUE。
聯(lián)想AI基礎設施持續(xù)聚焦三大領域
為解決上述用戶面臨的挑戰(zhàn),陳振寬強調(diào),聯(lián)想AI基礎設施持續(xù)聚焦三大領域,實現(xiàn)科技創(chuàng)新。首先是超強算力,智能匹配:為用戶匹配經(jīng)過驗證優(yōu)化的最佳算力;其次是核心算法,極致提效:以核心算法挖掘算力潛力,提升計算效率。第三,液冷創(chuàng)新,算力綠化:以先進的液冷技術幫助用戶節(jié)能增效,并突破芯片散熱的瓶頸。
公布五大技術創(chuàng)新,首發(fā)萬全異構智算平臺
“聯(lián)想在這三大領域里面長期耕耘,積累了八項核心能力。”陳振寬重點介紹了聯(lián)想為AI 2.0時代帶來的五大技術創(chuàng)新:
第一,用戶智能匹配算力的算力匹配魔方?;诤A康挠布u測和AI算子算法集成工作,聯(lián)想構建了AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫,來標識AI場景、算法、集群配置這三者的匹配關系。用戶只需輸入場景和數(shù)據(jù),算力魔方即可自動加載最優(yōu)算法,并調(diào)度最佳集群配置。
陳振寬介紹聯(lián)想五大技術創(chuàng)新
第二,逼近GPU算力極限的GPU內(nèi)核態(tài)虛擬化。聯(lián)想研究院開發(fā)了在GPU驅(qū)動層的內(nèi)核態(tài)虛擬化算法,新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。
第三,提升網(wǎng)絡通信效率的聯(lián)想集合通信算法庫??蓪崿F(xiàn)對多類型網(wǎng)絡拓撲的實時感知,并以先進算法使數(shù)據(jù)在拓撲中以最佳路徑進行傳輸。以千卡規(guī)模集群為例,采用集成了聯(lián)想集合通信庫的聯(lián)想異構智算平臺做管理調(diào)度,可使網(wǎng)絡通信效率提升超10%,并且集群規(guī)模越大,效果越顯著。
第四,減少AI訓練中斷時間的AI高效斷點續(xù)訓技術。聯(lián)想異構智算平臺對大量的AI訓練故障進行了特征采樣,開發(fā)了預測AI訓練故障的AI模型,實現(xiàn)“用AI來預測AI”。在斷點前提前優(yōu)化備份,由此能將斷點續(xù)訓恢復時間縮減到分鐘級,大幅提升了訓練效率,以千卡集群為例,每月可節(jié)約上百萬元算力費用支出,讓寶貴的AI算力持續(xù)可用。
第五,AI與HPC集群超級調(diào)度器。這是針對混合集群做資源共享的前沿技術。聯(lián)想AI與HPC超級調(diào)度器架構于AI和HPC調(diào)度之上,能夠切換AI和HPC的調(diào)度溝通,能全局監(jiān)控任務和動態(tài)共享資源,使得用戶可以充分利用基礎設施的每一分算力。
除了公布以上五大技術創(chuàng)新,陳振寬還在大會上正式發(fā)布了“聯(lián)想萬全異構智算平臺”。他表示,聯(lián)想萬全異構智算平臺是AI 2.0時代聯(lián)想中國基礎設施戰(zhàn)略框架的核心,它融合了聯(lián)想的五大技術創(chuàng)新,是AI 2.0時代大模型訓練和推理的基礎設施底座。
對于未來的研究方向,陳振寬透露,聯(lián)想將挑戰(zhàn)超過萬卡規(guī)模集群的通訊算法優(yōu)化,挑戰(zhàn)秒級的斷點續(xù)訓,深入研究相變式液冷技術,布局模塊化液冷數(shù)據(jù)中心。這些技術幫助AI算力朝著更強大、更穩(wěn)定、更高效和更綠色的方向,高質(zhì)量發(fā)展。
“人工智能技術給我們帶來的新時代是百花齊放,百舸爭流的時代,也將是英雄輩出的時代。”陳振寬表示,聯(lián)想將持續(xù)投入,堅持創(chuàng)新,持續(xù)升級萬全之力,為英雄助力,成就英雄。加速中國智能化轉(zhuǎn)型,釋放社會進步新動能。
延伸閱讀:
- 本文素材來自互聯(lián)網(wǎng),如有侵權,請聯(lián)系將及時刪除!