10月21日消息,第六屆世界互聯(lián)網(wǎng)大會(huì)人工智能論壇開幕,主題為“開啟智能經(jīng)濟(jì)新時(shí)代”。
百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室主任王海峰在論壇上發(fā)言稱,人工智能是新一輪科技革命和產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力量。
王海峰透露,百度AI大生產(chǎn)平臺(tái)的數(shù)據(jù),已經(jīng)開放216項(xiàng)能力,每天調(diào)用次數(shù)已過(guò)萬(wàn)億,上面有150多萬(wàn)開發(fā)者。
在隨后參加的5G論壇上,王海峰表示,由于連接,5G也促進(jìn)了AI的發(fā)展,5G也讓AI變得無(wú)處不在,讓傳統(tǒng)的產(chǎn)品都變得更好用,很多不可能也會(huì)變得可能。
以下為速記全文:
各位領(lǐng)導(dǎo)、各位專家,各位來(lái)賓:
大家下午好!
我跟大家分享的題目是《人工智能進(jìn)入工業(yè)大生產(chǎn)時(shí)代》,我知道我們這個(gè)論壇的主題是“人工智能:開啟智能經(jīng)濟(jì)新時(shí)代”,怎么開啟?我的觀點(diǎn)是如果想讓人工智能能更快地、更有效地助力經(jīng)濟(jì)的發(fā)展,需要讓人工智能真正像工業(yè)大生產(chǎn)的方式進(jìn)入各行各業(yè)的生產(chǎn)環(huán)節(jié),進(jìn)而推動(dòng)整個(gè)生產(chǎn)力的進(jìn)步,也推動(dòng)社會(huì)的進(jìn)步。
為了論述我剛才講的工業(yè)大生產(chǎn)階段,我們先回顧一下人類歷史上已經(jīng)發(fā)生過(guò)的幾次工業(yè)革命。我們都知道從200多年以前,人類歷史上已經(jīng)發(fā)生了三次工業(yè)革命,分別為人類帶來(lái)了機(jī)械技術(shù)、電力技術(shù)和信息技術(shù),而且每一次工業(yè)革命的核心技術(shù)都不是限于某一個(gè)行業(yè),而是廣泛應(yīng)用于各行各業(yè),應(yīng)用于人類的工業(yè)大生產(chǎn),進(jìn)而帶來(lái)了人們的生產(chǎn)方式、生活方式甚至思維方式的變化。
工業(yè)大生產(chǎn)的技術(shù)有非常強(qiáng)的通用性,另一方面這些技術(shù)也呈現(xiàn)出一些顯著的特征,比如標(biāo)準(zhǔn)化、自動(dòng)化和模塊化。所以,我認(rèn)為一個(gè)技術(shù)有很強(qiáng)的通用性,它可以影響各行各業(yè),同時(shí)具備標(biāo)準(zhǔn)化、自動(dòng)化和模塊化的特征,它就具備了進(jìn)入工業(yè)大生產(chǎn)階段的一些基本前提。
人工智能是新一輪科技革命和產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力量。百度大腦是百度經(jīng)過(guò)多年人工智能的技術(shù)積累和產(chǎn)業(yè)實(shí)踐的集大成,我們從2010年左右就開始布局人工智能相關(guān)的各種基礎(chǔ)能力,經(jīng)過(guò)多年的積累,在2016年形成初步完善的布局,因而發(fā)布百度大腦1.0。發(fā)展到今年,百度大腦不僅僅有很強(qiáng)的各方面的跟AI相關(guān)的軟的能力,從事也開始進(jìn)入工業(yè)大生產(chǎn)的階段。一方面它更多地在跟硬件,比如跟芯片、硬件平臺(tái)進(jìn)行結(jié)合,形成軟硬一體的平臺(tái);另一方面,是我后面跟大家說(shuō)到的這些技術(shù)也逐漸具備了標(biāo)準(zhǔn)化、模塊化、自動(dòng)化的特征,而且已經(jīng)開始應(yīng)用于各行各業(yè),顯示出通用性。
百度AI大生產(chǎn)平臺(tái)的一些基本架構(gòu),有基本的算力和數(shù)據(jù),同時(shí)有深度學(xué)習(xí)平臺(tái),包括核心框架、工具組件、服務(wù)平臺(tái);上面有各種相對(duì)通用的AI能力,比如跟人的視覺(jué)和聽覺(jué)、感知相關(guān)的計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音技術(shù),同時(shí)也包括跟人的認(rèn)知相關(guān)的自然語(yǔ)言處理、知識(shí)圖譜等基礎(chǔ)。在此基礎(chǔ)上,還要有定制的訓(xùn)練平臺(tái),比如面向各種垂直場(chǎng)景的應(yīng)用技術(shù)進(jìn)行定制化平臺(tái),當(dāng)然還要有適用于多種場(chǎng)景的多端部署能力,不管是云上、端上還是邊緣上以及各種各樣的設(shè)備上,從而形成AI的解決方案。
我剛才講的第一點(diǎn)就是深度學(xué)習(xí)的平臺(tái),我認(rèn)為深度學(xué)習(xí)框架和平臺(tái)是AI時(shí)代的操作系統(tǒng)。為什么這么說(shuō)?一方面它向下對(duì)接硬件、對(duì)接芯片,而且為了達(dá)到更好的效果,芯片是需要針對(duì)深度學(xué)習(xí)框架的技術(shù)進(jìn)行定制優(yōu)化,從而達(dá)到軟硬一體優(yōu)化的更好效果;而向上,深度學(xué)習(xí)框架和平臺(tái)承接的是各種應(yīng)用,這樣的話它處在一個(gè)比較核心的承上啟下的位置。所以,我認(rèn)為它是智能時(shí)代的操作系統(tǒng)。
而百度的飛槳經(jīng)過(guò)多年布局,已形成完善的布局,包括基礎(chǔ)框架,無(wú)論是開發(fā)、訓(xùn)練還是預(yù)測(cè);還包括產(chǎn)業(yè)實(shí)踐打磨的模型庫(kù),也包括端到端的開發(fā)套件、工具組件和服務(wù)平臺(tái)。飛槳是一套很龐大的架構(gòu),如果提煉出其中幾個(gè)方面,是我們認(rèn)為很重要很領(lǐng)先的技術(shù),包括開發(fā)方面的開發(fā)便捷的深度學(xué)習(xí)框架,同時(shí)也有訓(xùn)練方面能支持超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練的技術(shù),包括多端多平臺(tái)部署的高性能的推理引擎以及產(chǎn)業(yè)級(jí)的模型庫(kù)。
開發(fā)方面,一方面是組網(wǎng)的編程范式更符合程序員寫程序的習(xí)慣,所以程序員開發(fā)起來(lái)非常方便,而且它同時(shí)支持動(dòng)態(tài)圖和荊靜態(tài)圖,兼具靈活性和穩(wěn)定性的優(yōu)勢(shì)。另一方面,為了更好設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),我們開發(fā)了自動(dòng)化的網(wǎng)絡(luò)設(shè)計(jì),現(xiàn)在這種基礎(chǔ)設(shè)計(jì)出來(lái)的網(wǎng)絡(luò)已經(jīng)超越了人類專家設(shè)計(jì)的網(wǎng)絡(luò)的效果。
而超大規(guī)模的深度學(xué)習(xí)訓(xùn)練技術(shù)已經(jīng)能支持萬(wàn)億級(jí)參數(shù)的訓(xùn)練,而且可以做到實(shí)時(shí)的更新。
訓(xùn)練出來(lái)模型以后,我們需要部署、應(yīng)用,進(jìn)行各種應(yīng)用和推理,這時(shí)候涉及到多端多平臺(tái)的部署能力,而且為了在各種場(chǎng)景當(dāng)中應(yīng)用得更好,也做了通用架構(gòu)推理速度的優(yōu)化。
有了這些基礎(chǔ)的框架,無(wú)論是開發(fā)、訓(xùn)練還是推理的能力,在真正應(yīng)用的時(shí)候需要針對(duì)各種場(chǎng)景建構(gòu)各種模型。這樣的話,飛槳也提供了非常全面的官方支持,經(jīng)過(guò)工業(yè)產(chǎn)業(yè)驗(yàn)證的工業(yè)級(jí)的模型庫(kù),而且這種模型庫(kù)一方面在產(chǎn)業(yè)應(yīng)用中得到很多驗(yàn)證,另外一方面也參加了國(guó)際標(biāo)準(zhǔn)測(cè)試,得到了很多領(lǐng)先的結(jié)果。
深度學(xué)習(xí)有感知、認(rèn)知技術(shù),包括語(yǔ)音、視覺(jué)、語(yǔ)言和知識(shí)等等,這也是百度大腦具備的各方面的能力。語(yǔ)音的角度,我們最近研發(fā)的SIMLTA流式注意力模型,使準(zhǔn)確率進(jìn)一步提升,而且不僅在正常的比較安靜、標(biāo)準(zhǔn)的語(yǔ)音環(huán)境下能得到很好的識(shí)別效果,在嘈雜的環(huán)境或者中英文混讀的環(huán)境中也能得到很好的效果。如果大家平時(shí)會(huì)用語(yǔ)音輸入,會(huì)發(fā)現(xiàn)你只說(shuō)中文,可能效果很好,但中英文混的時(shí)候效果就要差很多,這是由于語(yǔ)音識(shí)別技術(shù)所決定的。但是,我們現(xiàn)在不斷地提升模型,將兩種語(yǔ)言混合在一起仍然能得到比較好的效果。
而語(yǔ)音合成呢?如果僅僅能夠讓人聽清楚、聽得明白,這個(gè)事不是特別難,但如果聽得很流暢、很舒服而且有不同的音色、風(fēng)格、情感等等,這些就變得很難了。我們研發(fā)的語(yǔ)音合成技術(shù),把這些要素分別結(jié)耦、分別訓(xùn)練,最后形成了統(tǒng)一的聲音。這時(shí)候不僅讓聲音的自然度更好,同時(shí)也可以進(jìn)行各種定制。如果大家用過(guò)地圖的導(dǎo)航,知道一般地圖會(huì)提供一些標(biāo)準(zhǔn)的聲音,但你要想用你的孩子、用你的親人、用你的朋友或者用任何其他人的定制的聲音,其實(shí)這并不容易做到。但基于我們現(xiàn)在最新研制的語(yǔ)音合成技術(shù),任何人只要對(duì)著手機(jī)到百度地圖說(shuō)20句話,它就可以給你定制一個(gè)模擬這個(gè)人聲音的合成語(yǔ)。比如你開車的時(shí)候,就可以用你孩子的聲音幫你導(dǎo)航,幫助你去哪兒、要怎么走等。
剛才講的是語(yǔ)音識(shí)別,接下來(lái)是語(yǔ)言相關(guān)的。語(yǔ)言相關(guān)很重要的一點(diǎn)是語(yǔ)義理解,而我們研制的可以持續(xù)學(xué)習(xí)的,而且不僅有深度學(xué)習(xí)技術(shù)在里面,同時(shí)也經(jīng)過(guò)了把知識(shí)、知識(shí)圖譜加進(jìn)去的語(yǔ)義增強(qiáng)的理解框架,得到了非常好的效果。
同時(shí)還有交互的技術(shù),比如說(shuō)百度的對(duì)話式交互平臺(tái)已經(jīng)有6萬(wàn)多個(gè)定制技能,累計(jì)交互已有500多億次。
再有是兩種語(yǔ)言之間的翻譯,我們也首創(chuàng)語(yǔ)義單元驅(qū)動(dòng)的上下游感知的翻譯模型,而且不僅翻譯得很好,同時(shí)實(shí)時(shí)性更好。
所有的百度AI技術(shù),我們已經(jīng)通過(guò)百度大腦開放平臺(tái)以及飛槳開源開放平臺(tái)全面開放,大家都可以基于這個(gè)平臺(tái)開發(fā)自己的產(chǎn)品、發(fā)展自己的業(yè)務(wù)。另一方面,我們也依托百度智能云,可以更好地、軟硬一體地、包括數(shù)據(jù)、算法、算力結(jié)合起來(lái),來(lái)部署這些AI能力。
當(dāng)然,提到AI,安全也非常重要。百度AI安全方面也有一個(gè)完整的布局,從基礎(chǔ)層到平臺(tái)層到生態(tài)層都有很多的布局,大家有興趣可以進(jìn)一步了解。
整體上百度AI大生產(chǎn)平臺(tái)現(xiàn)在的數(shù)據(jù)是這樣,已經(jīng)開放216項(xiàng)能力,每天調(diào)用次數(shù)已過(guò)萬(wàn)億,上面有150多萬(wàn)開發(fā)者,有大量的模型發(fā)布出來(lái)。
AI賦能各行各業(yè),幫助各行各業(yè)進(jìn)入工業(yè)大生產(chǎn)時(shí)代。時(shí)間關(guān)系,我不詳細(xì)講每一個(gè)點(diǎn),大家可以看到不管是工業(yè)、農(nóng)業(yè)、服務(wù)業(yè)各方面都可以受益于AI的能力。
謝謝大家!