大家這幾年有沒有發(fā)現(xiàn),自己越來越離不開一樣東西——語音。
比如小雷,自從微信整出個語音功能后,聊天由“文字交流”徹底蛻變成“語音大戰(zhàn)”。
不是你發(fā)語音我翻譯,便是我發(fā)語音他播放。

玩?zhèn)€王者榮耀也從以前手動打字,成了今天輸出千言萬字全憑一張嘴。
方便操作同時還躲過許多“表面打字聊天,實為趁機殺你”的對線臟套路。

不僅微信王者,甚至藍牙音箱也離不開語音控制。
小雷現(xiàn)在每天像個復讀機似的對著小度音箱大喊“小度、小度”。
聽聽歌查天氣預報啥的,偶爾調戲調戲小度。

還有現(xiàn)在火得爆表,幾乎人人手機都有一個的“語音助手”。
蘋果的智障助手“Siri”、百度的“小度”、小米的“小愛同學”、華為的“小藝”等等。
它們的使用與操控全靠語音完成,一句話幫你實現(xiàn)從地圖導航到訂外賣一條龍服務。

就連看個電視也逃不過語音代表“小度”的包圍。
湖南衛(wèi)視大熱的綜藝節(jié)目《向往的生活》,明星也愛帶著小度吃喝玩樂。

炒菜靠小度提醒、出門靠小度導航,活脫脫成了個貼心小管家。

黃老師、何老師、彭彭哥哥、子楓小姐姐等瞬間成了它的小迷弟、小迷妹。

所以說,語音幾乎成了我們身邊無形的“第三只手”,如影隨形,無法離開。
而這種通過語音控制手機、音箱等設備進行操作,將語音翻譯成文字的黑科技,真正名字叫——語音識別技術。
此時相信機友們肯定有個疑問:以前壓根沒見過“語音助手”、“語音識別”這種東西,為什么現(xiàn)在突然火爆起來,而且還那么好用?

其實鴨,語音技術并不是最近幾年出現(xiàn)的,人家早在200多年前的清朝時期便開始蹦跶了。
比你大爺還大的語音識別
時間撥回1773年,那時有位俄羅斯科學家叫「克里斯蒂·克拉特茲斯坦」,他某天突發(fā)奇想,將共振管和風琴管連接起來,制造出一個可以發(fā)出人類聲音的奇怪設備。
這便是人類對語音技術的第一次嘗試,可惜后人對這個奇怪毫無X用的東西不感興趣,一頓俄羅斯式破壞后扔到垃圾堆里。

到100多年后的1946年,第一臺計算機誕生,讓人們意識到,原來計算機很多事情做得比人還好。

(馮諾依曼與第一臺計算機)
然而那時沒有鍵盤沒有操作系統(tǒng),控制計算機全靠手動輸入“0”、“1”信號,操作極度麻煩。

于是乎有人想道,如果能和計算機聊天交流,讓它明白你在說什么,會不會變得更方便好用,做更多的事?(事實證明,懶是人類的第一生產(chǎn)力)

人工智能之父「圖靈」便是第一個提出該想法的人。
1950年圖靈發(fā)表了一篇名為《計算的機器和智能》的論文,里面寫道:讓人和機器交流,來驗證機器是否有智能。
可惜他只貢獻想法,卻沒有告訴人們怎么做。
沒關系,圖靈不干,自有人做。

兩年后,著名的“貝爾實驗室”研制出世界第一個可識別10個阿拉伯數(shù)字的系統(tǒng)“Audrey”,意味著機器成功聽懂了人類的話。
大概屬于能聽明白“1、2、3、4”等數(shù)字,跟1歲嬰兒差不多的水平。
這便是第一代的“語音識別系統(tǒng)”,被科學家稱作“機器的聽覺系統(tǒng)”。

(1954年的貝爾實驗室)
又過8年,英國倫敦學院「Denes」開發(fā)出第一個計算機語音識別系統(tǒng)。
專門用于電腦上進行語音識別,可惜仍處于只能識別幾個英文字母和數(shù)字的級別,根本沒法用到實際生活中。
話說起來,這臺語音識別系統(tǒng)算得上是現(xiàn)在所有“語音助手”的祖宗,別看了,包括你手上那一臺。

隨后二十年,人類對“語音識別”的研究陷入原地踏步的死循環(huán),沒有一絲進步。
原因很簡單:當時科學家把小孩學說話那一套用到電腦上,想像教育小孩一般讓電腦學會“交流”。
你說人家電腦聽得懂嗎?你輸入信號1和0倒能識別,你說個句子“who are you”,電腦計算得冒青煙也不可能理解啊!

直到1970年,語音識別迎來它的伯樂「弗萊德里克·賈里尼克」,人生實現(xiàn)一次轉折。
弗萊德里克·賈里尼克領著IBM華生實驗室,將統(tǒng)計學、信息論的方法加入到語音識別中,并提出“統(tǒng)計的語音框架”,讓停滯多年的語音識別煥發(fā)第二春。
最終把語音識別從幾百個單詞量活生生提升到幾萬個,識別率由萬年70%飆升至90%。
讓語音識別有了從實驗室研究到走向生活應用的可能。

(弗萊德里克·賈里尼克)
同樣在1970年,美國DARPA(真正的黑科技機構,互聯(lián)網(wǎng)就是它發(fā)明的)開始投錢研究語音識別,(蘋果的Siri最初是DARPA投資研發(fā)的)。
目的是讓戰(zhàn)場的戰(zhàn)士們用語音操縱武器,增強戰(zhàn)斗力,也有說法是用來監(jiān)控互聯(lián)網(wǎng)和電話。

就這樣在政府、大企業(yè)的投入與研發(fā)支持下,到了90年代語音識別技術已經(jīng)能準確地理解人類的話語。
典型的產(chǎn)品就是IBM公司的“viavoice”,90年代末美國非常流行的語音識別軟件。
后來在20世紀初流入中國,然而沒幾個人用,因為那時電腦是比“鉆石”還貴的奢侈品,哪個富家子弟會閑得腎疼,買來跟語音助手吹牛。

(中文版ViaVoice)
轉眼來到2006年,這一年語音識別完成了200余年來最大一次蛻變,堪稱“魚躍龍門,原地飛升”。
谷歌人工智能首席科學家「Geoffrey Hinton」提出“非監(jiān)督貪心逐層訓練算法”,讓人工智能得到巨大突破。(可以理解為讓電腦主動學習的算法)
一人得道,雞犬升仙。語音識別在人工智能的加持下,獲得質一般的飛躍。

(Geoffrey Hinton)
如果以前的語音識別是:
請問廁所怎么走?答:前面直走50米后再左轉。
那么有了人工智能后的語音識別則是:
前面直走50米后左轉,期間有1個紅綠燈間隔15秒。廁所里有三個蹲位,其中2個已有人,剩余1個沒有門,如果害羞可以繞道3公里外的衛(wèi)生間如廁,記得帶紙。

不僅技術得到突破,人們制作出超強的GPU硬件(英偉達公司),加上互聯(lián)網(wǎng)提供的海量數(shù)據(jù)。
讓人工智能、大數(shù)據(jù)、語音識別技術完美結合,美名其曰“AI語音識別”,預示著一場大變革的到來。
世界科技巨頭第一時間意識到AI語音識別的重要性,美國的谷歌、微軟,亞馬遜等,中國的百度、阿里、科大訊飛之流紛紛投入AI語音識別的研發(fā)行列。

2010年蘋果推出智障語音助手“Siri”,2014年亞馬遜推出“Echo”。(國內(nèi)沒啥人知道,亞馬遜音箱上的助手)
隨后2016年國產(chǎn)公司小米、華為、百度等接連發(fā)布小愛、小藝、小度等語音助手,搶奪用戶,占領市場。

于是乎語音助手們跟隨手機、音箱等智能設備來到我們手里,由此開啟一波“AI語音識別大潮流”。
這便是近幾年各種“語音助手”“智能音箱”突然爆發(fā)的真相。
據(jù)說,百度小度音箱的出貨量已經(jīng)超過了之前的國內(nèi)老大阿里和老二小米
成了全國第一!!世界第三!!

不過也是好事,大公司們競爭得越劇烈,我們這些吃瓜用戶占的便宜越大。

而在這次世界級“AI語音研發(fā)大戰(zhàn)”中,貢獻最大的企業(yè)之一當數(shù)“百度”。
不僅早在2014年搶先亞馬遜研發(fā)出Depp Speech語音識別系統(tǒng),現(xiàn)在更是黑科技層出不窮,大大改善“AI語音識別”的體驗。
百度語音不為人知的黑科技
小雷用今年新推出,新鮮火熱辣的“百度輸入法AI探索版”舉個栗子。
黑科技一:中英文、方言混合語音輸入
現(xiàn)在很多輸入法支持中文語音輸入,英文語音輸入,唯獨中英文混合輸入?yún)s很少有,而百度輸入法恰恰支持。
比如小雷在普通話里插入一個英文單詞,百度輸入法很輕易精準的識別到,并理順句子轉換成文字。

還支持方言轉文字輸入。(小雷此處用的是粵語)

在百度輸入法語音里,小雷最喜歡的就是“語音斗圖”。
隨意喊出幾個字,輸入法立馬找來幾百個表情包任君挑選。
簡直就是一個移動的表情包網(wǎng),以后斗圖還有誰?

不管你說四川話、粵語、東北話、英語還是混合著說,百度輸入法統(tǒng)統(tǒng)能識別,讓用戶真正實現(xiàn)“自由說、隨便說”。
事實上這就是百度語音合成技術能力的體現(xiàn),遙遙領先于同類工具。
黑科技二:全雙工免喚醒
用過智能音箱的機友都知道,每次喚醒音箱時都得喊“小度小度”之類的賊麻煩。
有了全雙工免喚醒后,我們只需喚醒一次“小度”,之后便可以和小度持續(xù)深入的交流。

而且在深入交流中,小度會很機智的識別出哪些話是對它說,哪些話是對其他人說的。
即使是在多人對話的嘈雜環(huán)境里,小度仍然能分清哪一句是對自己下達的指令,像是擁有思想、懂得主人需求的“貼心管家”。

知道你們一臉懵逼聽不明白,看看百度老總李彥宏的現(xiàn)場演示就懂了~
百度展示的”全雙工免喚醒“黑科技打破過去啰嗦低效的喚醒方式,再一次刷新AI語音交互的上限。
讓我們享受到真正高效的“動口不動手,想做什么直接說”的便利。
黑科技三:百度鴻鵠芯片
百度不僅在軟件上努力,為了讓AI語音助手更好“聽見你,聽懂你”,還專門打造出針對語音交互的芯片——百度鴻鵠芯片。
芯片指令集全由自家定義,是實打實的國產(chǎn)芯片,擁有高精度、低功耗的特點。
有了針對性“芯片”加成,語音助手再次被強化,支持離線語音識別同時帶來更絲滑流暢的使用體驗。

專門為語音助手打造一個芯片,百度在語音識別方面是真的“硬核”。
黑科技四:流式截斷的多層注意力模型
流式截斷多層注意力模型,相信很多機友看到后第一反應是:啥玩意?能干嘛?

小雷用人話解釋下:目前大部分語音識別使用的技術叫“Attention模型”,特點是將我們輸入的語音全部上傳到服務器后,進行翻譯再傳送回來形成文字。
這就導致了兩個問題:因為需要上傳整段話到服務器,所以語音識別的效率很低,加上對整段話進行翻譯,難免會出現(xiàn)翻譯錯誤的問題。
所以百度針對上面兩個問題,進行了深入的研究,最終研發(fā)出“流式截斷的多層注意力模型”。

在“Attention模型”的基礎上,將整句語音進行截斷,由以前的一大段分割成一小段一小段地上傳到服務器中進行翻譯。
這樣一來不僅解決了翻譯轉化文字慢的問題,還大大提高了識別精度15%。

別小看小小的15%,這可是一項對全球學術界和工業(yè)界都具備重大意義的技術突破,如同當年弗萊德里克將統(tǒng)計學加入到語音識別中,改變語音識別的一生。
AI技術改變的不止是生活,還有世界
隨著百度等大公司大力研發(fā)AI技術,未來可不止讓我們生活變得便利那么簡單。
甚至是改變整個世界!不信?最近讓無數(shù)女性化身“上頭迷妹”的《親愛的,熱愛的》電視劇就劇透了未來AI技術有多牛。

在《親愛的,熱愛的》第18集中,佟年給韓商言講解了人工智能在刑偵方面的應用:
她設計出一個人臉識別系統(tǒng),專門用于幫助警方搜索犯人調查犯罪,破案1000多起。
其中有一個案子特別夸張,佟年向系統(tǒng)輸入一張十年前的殺人犯照片,通過大數(shù)據(jù)匹配篩選,最終幫警方從14億人里成功找到已經(jīng)剃發(fā)當和尚的殺人犯。

其實利用AI技術抓逃犯的事情是真實存在的,并非電視劇瞎編。
在2018年7月,衢州警方利用AI技術識別到嫌疑人的照片,并通過大數(shù)據(jù)追蹤其位置,破獲長達6年的“電魚迷案”。

AI不單可用于懲治犯罪,還能尋找失蹤人口。
2019年6月19日,深圳警方通過AI技術尋找到徐遠靈被拐賣19年的親兒子。
失散19年的一家人,最終在深圳公安局幫助下團聚,圓了徐遠靈多年以來的夢。

小到智能音箱查天氣,大到查案追蹤逃犯,背后全是AI技術的默默貢獻,蘊藏著深厚的技術能量。
不久的未來,AI技術還會給我們帶來怎樣的驚喜?驚人的黑科技?讓我們共同拭目以待吧。