AIoT正在成為科技公司們爭搶的下一座城池。
2016年開始,智能手機(jī)行業(yè)紅利開始見頂,手機(jī)廠商可爭奪的存量市場不斷被壓縮,這時,硬件領(lǐng)域的新機(jī)會延伸到了智能音箱、智能家電,以及可穿戴設(shè)備。智能硬件也相應(yīng)地成為互聯(lián)網(wǎng)的新入口,國內(nèi)外多家巨頭已早早開始爭奪這部分還未被完全挖掘的用戶入口。
其中,語音識別及語音交互毫無疑問是各智能硬件最重要的控制手段之一,同時也是人工智能技術(shù)到目前為止落地最快的應(yīng)用之一。
以智能音箱為例,僅2018年四季度,全球智能音箱出貨量增長95%達(dá)到3850萬臺,超過2017全年總量。2018年出貨量更是達(dá)到8620萬臺,同比增長100%以上。Strategy Analytics預(yù)測,2019年全球智能音箱的出貨量將超過1.34億,到2024年將增加到2.8億。
《語音交互在AIoT的應(yīng)用》
搜狐科技“智研所”沙龍第6期邀請到科大訊飛OS業(yè)務(wù)部總經(jīng)理林滿佳進(jìn)行主題演講——
以下是演講精編
林滿佳:大家好,我是來自科大訊飛的林滿佳,目前負(fù)責(zé)整個語音交互系統(tǒng)iFLYOS,今天我?guī)淼闹黝}是語音交互在AIoT的應(yīng)用。
信息革命從電腦開始。一開始需要用鍵盤輸入,需要記住很多命令,第二個年代進(jìn)入圖形化交互的年代,通過簡單的鼠標(biāo)操作加上一些圖形化的界面,現(xiàn)在到了觸摸時代,但是目前看起來這三個革命來說,帶來的用戶群體已經(jīng)到頂了。
如果關(guān)注現(xiàn)在的互聯(lián)網(wǎng)流量,大家會看到移動互聯(lián)網(wǎng)的流量已經(jīng)見頂,意味著我們需要更大規(guī)模,擴(kuò)大受益群體,所以語音交互時代來臨了,AIoT時代使用門檻進(jìn)一步降低,讓更多的人去使用。
舉個最簡單的例子,中國還有非常非常多的人只懂說方言不懂說普通話,這些人如何獲取到他需要的服務(wù)?這個就是AIoT時代語音交互應(yīng)該解決的很核心的問題。
銷售量很大,但是各位買到音箱之后放到家里,其實(shí)使用頻率沒那么高,這是一個市場現(xiàn)在的怪狀。
目前來說這個時代來臨了沒有?來臨了,目前以iFLYOS訊飛開放平臺或者整個訊飛的流量來看,每天在訊飛里面的交互次數(shù)是50億次,意味著語音交互基本上已經(jīng)進(jìn)入了一個主流的模式?,F(xiàn)在來說,大家可能覺得這個數(shù)字很大,但是在生活之中也會遇到一個問題,或者創(chuàng)業(yè)者也會遇到一個問題——目前來說,智能音箱已經(jīng)是紅海市場了,大家瘋狂補(bǔ)貼從幾十到幾百不等。其次,
第二個怪狀,形狀很不一樣,其實(shí)形態(tài)基本一致,舉個簡單例子,大家都能問天氣,大家都能聽音樂,大家都能ABCD,其實(shí)沒有任何差異化,沒有針對場景去做一些很特殊的優(yōu)化。
訊飛在這幾年里面推出非常多的智能硬件,包括最早的智能音箱到現(xiàn)在的翻譯機(jī)、錄音筆等等,那么我們在AIoT時代,
第一,真實(shí)可見的實(shí)際案例,這個硬件不是憑空想象的,而是現(xiàn)實(shí)中已經(jīng)有的產(chǎn)品。
第二,能規(guī)模化推廣的產(chǎn)品,這些東西本來就是某一個領(lǐng)域的剛需,通過人工智能加持,通過語音交互的加持能夠形成更大規(guī)模的推廣。
第三,可用統(tǒng)計(jì)數(shù)據(jù)證實(shí)的可用功效,簡單來說就是人工智能在這個領(lǐng)域有實(shí)打?qū)嵉男Ч?/strong>
我們來舉一個很典型的案例,訊飛今年推出的錄音筆,傳統(tǒng)錄音筆來說,很多學(xué)生跟很多記者媒體朋友們都會用到錄音筆,但是用著用著大家發(fā)現(xiàn)一個問題,就是很雞肋,我錄了一個小時還得找人聽一個小時寫一個小時,基本就是這樣一個情況。通過人工智能語音交互相關(guān)的技術(shù)加持之后可以達(dá)到一個什么樣的效果?我們在實(shí)時錄音的時候把文字轉(zhuǎn)寫出來,這時候很多學(xué)生和很多記者的工作負(fù)擔(dān)就降低了很多。在這么些年來我們看到的一個情況,AIoT時代人工智能技術(shù)落地的要點(diǎn)可以總結(jié)三點(diǎn)。
現(xiàn)在的AIoT時代,大家覺得語音是一個強(qiáng)剛需的入口,但是在訊飛我們認(rèn)為語音是一個主要入口,它會服務(wù)于很多的多模態(tài)入口為輔助,
第一,首先基于自然交互,自然交互不單單只是語音,通過語音觸摸視覺甚至一些傳感器,比如體感比如動作等等一系列,訊飛一直會看一些視覺的、觸摸的、甚至腦科學(xué)都會去研究。
第二,以智能硬件為載體,為了這個領(lǐng)域,我們?nèi)?shí)打?qū)嵞ブ悄苡布瑥牧汩_始去磨,選擇最合適的元器件,而不是我們草草選一個現(xiàn)有的載體隨便去改,去做一些兼容。
云端跟終端的結(jié)合,所謂的云端和終端的結(jié)合,云端放大量的數(shù)據(jù)大模型,在終端里面會用簡單的模型做一些離線可用的操作。
第三,舉個最簡單的例子,訊飛在前裝車機(jī)上的落地,其實(shí)在車機(jī)里面就會一直用大云端去解決檢索問題,然后會用小的客戶端,也就是離線的版本去解決弱網(wǎng)情況下的難題。
前面這些東西,訊飛在這么多年來做了一套系統(tǒng),就是為了滿足一開始定義的人工智能硬件時代的快速落地——iFLYOS系統(tǒng)
,這里面有很多特點(diǎn),今天挑幾個最重要的特點(diǎn)給大家分享,大家也可以看這幾個特點(diǎn)來做一些發(fā)散。
第一,語音交互的人性化,
所謂語音交互的人性化就是不要讓我們來去適配機(jī)器。在iFLYOS體系內(nèi)我們?yōu)榱诉@個語音交互的人性化,我們不單單只是通過了語音識別,我們能識別粵語,還要能理解粵語,還要能做出反應(yīng)。整體來看,就是這樣一個結(jié)果。當(dāng)然這里面還用到了非常多的其它技術(shù),比如翻譯技術(shù)。我們還發(fā)現(xiàn)有不少粵語文法其實(shí)很難用粵語原始的語義去理解,這里面是一個多模態(tài)技術(shù),不光是語音的合成、識別、理解,還會夾雜翻譯之類的技術(shù)。
第二,硬件落地要快,意味著人工智能每個硬件其實(shí)針對性很強(qiáng),所以每個領(lǐng)域都需要大體不同的一些硬件,
所以要求你的落地速度要足夠得快,
第三,產(chǎn)品設(shè)計(jì)要個性化,
每個領(lǐng)域的需求點(diǎn)都是不一樣,剛剛說到的錄音筆,再比如翻譯機(jī),這些東西里面或多或少都有語音交互的技術(shù)存在,但是它們著重的點(diǎn)都會不一樣,那么我們總結(jié)了三個比較重要的點(diǎn):
iFLYOS已經(jīng)落地七個場景,
這些場景都在訊飛內(nèi)部有所應(yīng)用,并且把這些服務(wù)場景和應(yīng)用已經(jīng)公開出來,讓廣大的開發(fā)者或者是企業(yè)能夠在這個基礎(chǔ)之上去開發(fā)屬于自己的一些硬件。