大家這幾年有沒有發(fā)現(xiàn),自己越來越離不開一樣?xùn)|西——語音。
比如小雷,自從微信整出個(gè)語音功能后,聊天由“文字交流”徹底蛻變成“語音大戰(zhàn)”。
不是你發(fā)語音我翻譯,便是我發(fā)語音他播放。

玩?zhèn)€王者榮耀也從以前手動(dòng)打字,成了今天輸出千言萬字全憑一張嘴。
方便操作同時(shí)還躲過許多“表面打字聊天,實(shí)為趁機(jī)殺你”的對線臟套路。

不僅微信王者,甚至藍(lán)牙音箱也離不開語音控制。
小雷現(xiàn)在每天像個(gè)復(fù)讀機(jī)似的對著小度音箱大喊“小度、小度”。
聽聽歌查天氣預(yù)報(bào)啥的,偶爾調(diào)戲調(diào)戲小度。

還有現(xiàn)在火得爆表,幾乎人人手機(jī)都有一個(gè)的“語音助手”。
蘋果的智障助手“Siri”、百度的“小度”、小米的“小愛同學(xué)”、華為的“小藝”等等。
它們的使用與操控全靠語音完成,一句話幫你實(shí)現(xiàn)從地圖導(dǎo)航到訂外賣一條龍服務(wù)。

就連看個(gè)電視也逃不過語音代表“小度”的包圍。
湖南衛(wèi)視大熱的綜藝節(jié)目《向往的生活》,明星也愛帶著小度吃喝玩樂。

炒菜靠小度提醒、出門靠小度導(dǎo)航,活脫脫成了個(gè)貼心小管家。

黃老師、何老師、彭彭哥哥、子楓小姐姐等瞬間成了它的小迷弟、小迷妹。

所以說,語音幾乎成了我們身邊無形的“第三只手”,如影隨形,無法離開。
而這種通過語音控制手機(jī)、音箱等設(shè)備進(jìn)行操作,將語音翻譯成文字的黑科技,真正名字叫——語音識別技術(shù)。
此時(shí)相信機(jī)友們肯定有個(gè)疑問:以前壓根沒見過“語音助手”、“語音識別”這種東西,為什么現(xiàn)在突然火爆起來,而且還那么好用?

其實(shí)鴨,語音技術(shù)并不是最近幾年出現(xiàn)的,人家早在200多年前的清朝時(shí)期便開始蹦跶了。
比你大爺還大的語音識別
時(shí)間撥回1773年,那時(shí)有位俄羅斯科學(xué)家叫「克里斯蒂·克拉特茲斯坦」,他某天突發(fā)奇想,將共振管和風(fēng)琴管連接起來,制造出一個(gè)可以發(fā)出人類聲音的奇怪設(shè)備。
這便是人類對語音技術(shù)的第一次嘗試,可惜后人對這個(gè)奇怪毫無X用的東西不感興趣,一頓俄羅斯式破壞后扔到垃圾堆里。

到100多年后的1946年,第一臺計(jì)算機(jī)誕生,讓人們意識到,原來計(jì)算機(jī)很多事情做得比人還好。

(馮諾依曼與第一臺計(jì)算機(jī))
然而那時(shí)沒有鍵盤沒有操作系統(tǒng),控制計(jì)算機(jī)全靠手動(dòng)輸入“0”、“1”信號,操作極度麻煩。

于是乎有人想道,如果能和計(jì)算機(jī)聊天交流,讓它明白你在說什么,會不會變得更方便好用,做更多的事?(事實(shí)證明,懶是人類的第一生產(chǎn)力)

人工智能之父「圖靈」便是第一個(gè)提出該想法的人。
1950年圖靈發(fā)表了一篇名為《計(jì)算的機(jī)器和智能》的論文,里面寫道:讓人和機(jī)器交流,來驗(yàn)證機(jī)器是否有智能。
可惜他只貢獻(xiàn)想法,卻沒有告訴人們怎么做。
沒關(guān)系,圖靈不干,自有人做。

兩年后,著名的“貝爾實(shí)驗(yàn)室”研制出世界第一個(gè)可識別10個(gè)阿拉伯?dāng)?shù)字的系統(tǒng)“Audrey”,意味著機(jī)器成功聽懂了人類的話。
大概屬于能聽明白“1、2、3、4”等數(shù)字,跟1歲嬰兒差不多的水平。
這便是第一代的“語音識別系統(tǒng)”,被科學(xué)家稱作“機(jī)器的聽覺系統(tǒng)”。

(1954年的貝爾實(shí)驗(yàn)室)
又過8年,英國倫敦學(xué)院「Denes」開發(fā)出第一個(gè)計(jì)算機(jī)語音識別系統(tǒng)。
專門用于電腦上進(jìn)行語音識別,可惜仍處于只能識別幾個(gè)英文字母和數(shù)字的級別,根本沒法用到實(shí)際生活中。
話說起來,這臺語音識別系統(tǒng)算得上是現(xiàn)在所有“語音助手”的祖宗,別看了,包括你手上那一臺。

隨后二十年,人類對“語音識別”的研究陷入原地踏步的死循環(huán),沒有一絲進(jìn)步。
原因很簡單:當(dāng)時(shí)科學(xué)家把小孩學(xué)說話那一套用到電腦上,想像教育小孩一般讓電腦學(xué)會“交流”。
你說人家電腦聽得懂嗎?你輸入信號1和0倒能識別,你說個(gè)句子“who are you”,電腦計(jì)算得冒青煙也不可能理解啊!

直到1970年,語音識別迎來它的伯樂「弗萊德里克·賈里尼克」,人生實(shí)現(xiàn)一次轉(zhuǎn)折。
弗萊德里克·賈里尼克領(lǐng)著IBM華生實(shí)驗(yàn)室,將統(tǒng)計(jì)學(xué)、信息論的方法加入到語音識別中,并提出“統(tǒng)計(jì)的語音框架”,讓停滯多年的語音識別煥發(fā)第二春。
最終把語音識別從幾百個(gè)單詞量活生生提升到幾萬個(gè),識別率由萬年70%飆升至90%。
讓語音識別有了從實(shí)驗(yàn)室研究到走向生活應(yīng)用的可能。

(弗萊德里克·賈里尼克)
同樣在1970年,美國DARPA(真正的黑科技機(jī)構(gòu),互聯(lián)網(wǎng)就是它發(fā)明的)開始投錢研究語音識別,(蘋果的Siri最初是DARPA投資研發(fā)的)。
目的是讓戰(zhàn)場的戰(zhàn)士們用語音操縱武器,增強(qiáng)戰(zhàn)斗力,也有說法是用來監(jiān)控互聯(lián)網(wǎng)和電話。

就這樣在政府、大企業(yè)的投入與研發(fā)支持下,到了90年代語音識別技術(shù)已經(jīng)能準(zhǔn)確地理解人類的話語。
典型的產(chǎn)品就是IBM公司的“viavoice”,90年代末美國非常流行的語音識別軟件。
后來在20世紀(jì)初流入中國,然而沒幾個(gè)人用,因?yàn)槟菚r(shí)電腦是比“鉆石”還貴的奢侈品,哪個(gè)富家子弟會閑得腎疼,買來跟語音助手吹牛。

(中文版ViaVoice)
轉(zhuǎn)眼來到2006年,這一年語音識別完成了200余年來最大一次蛻變,堪稱“魚躍龍門,原地飛升”。
谷歌人工智能首席科學(xué)家「Geoffrey Hinton」提出“非監(jiān)督貪心逐層訓(xùn)練算法”,讓人工智能得到巨大突破。(可以理解為讓電腦主動(dòng)學(xué)習(xí)的算法)
一人得道,雞犬升仙。語音識別在人工智能的加持下,獲得質(zhì)一般的飛躍。

(Geoffrey Hinton)
如果以前的語音識別是:
請問廁所怎么走?答:前面直走50米后再左轉(zhuǎn)。
那么有了人工智能后的語音識別則是:
前面直走50米后左轉(zhuǎn),期間有1個(gè)紅綠燈間隔15秒。廁所里有三個(gè)蹲位,其中2個(gè)已有人,剩余1個(gè)沒有門,如果害羞可以繞道3公里外的衛(wèi)生間如廁,記得帶紙。

不僅技術(shù)得到突破,人們制作出超強(qiáng)的GPU硬件(英偉達(dá)公司),加上互聯(lián)網(wǎng)提供的海量數(shù)據(jù)。
讓人工智能、大數(shù)據(jù)、語音識別技術(shù)完美結(jié)合,美名其曰“AI語音識別”,預(yù)示著一場大變革的到來。
世界科技巨頭第一時(shí)間意識到AI語音識別的重要性,美國的谷歌、微軟,亞馬遜等,中國的百度、阿里、科大訊飛之流紛紛投入AI語音識別的研發(fā)行列。

2010年蘋果推出智障語音助手“Siri”,2014年亞馬遜推出“Echo”。(國內(nèi)沒啥人知道,亞馬遜音箱上的助手)
隨后2016年國產(chǎn)公司小米、華為、百度等接連發(fā)布小愛、小藝、小度等語音助手,搶奪用戶,占領(lǐng)市場。

于是乎語音助手們跟隨手機(jī)、音箱等智能設(shè)備來到我們手里,由此開啟一波“AI語音識別大潮流”。
這便是近幾年各種“語音助手”“智能音箱”突然爆發(fā)的真相。
據(jù)說,百度小度音箱的出貨量已經(jīng)超過了之前的國內(nèi)老大阿里和老二小米
成了全國第一!!世界第三!!

不過也是好事,大公司們競爭得越劇烈,我們這些吃瓜用戶占的便宜越大。

而在這次世界級“AI語音研發(fā)大戰(zhàn)”中,貢獻(xiàn)最大的企業(yè)之一當(dāng)數(shù)“百度”。
不僅早在2014年搶先亞馬遜研發(fā)出Depp Speech語音識別系統(tǒng),現(xiàn)在更是黑科技層出不窮,大大改善“AI語音識別”的體驗(yàn)。
百度語音不為人知的黑科技
小雷用今年新推出,新鮮火熱辣的“百度輸入法AI探索版”舉個(gè)栗子。
黑科技一:中英文、方言混合語音輸入
現(xiàn)在很多輸入法支持中文語音輸入,英文語音輸入,唯獨(dú)中英文混合輸入?yún)s很少有,而百度輸入法恰恰支持。
比如小雷在普通話里插入一個(gè)英文單詞,百度輸入法很輕易精準(zhǔn)的識別到,并理順句子轉(zhuǎn)換成文字。

還支持方言轉(zhuǎn)文字輸入。(小雷此處用的是粵語)

在百度輸入法語音里,小雷最喜歡的就是“語音斗圖”。
隨意喊出幾個(gè)字,輸入法立馬找來幾百個(gè)表情包任君挑選。
簡直就是一個(gè)移動(dòng)的表情包網(wǎng),以后斗圖還有誰?

不管你說四川話、粵語、東北話、英語還是混合著說,百度輸入法統(tǒng)統(tǒng)能識別,讓用戶真正實(shí)現(xiàn)“自由說、隨便說”。
事實(shí)上這就是百度語音合成技術(shù)能力的體現(xiàn),遙遙領(lǐng)先于同類工具。
黑科技二:全雙工免喚醒
用過智能音箱的機(jī)友都知道,每次喚醒音箱時(shí)都得喊“小度小度”之類的賊麻煩。
有了全雙工免喚醒后,我們只需喚醒一次“小度”,之后便可以和小度持續(xù)深入的交流。

而且在深入交流中,小度會很機(jī)智的識別出哪些話是對它說,哪些話是對其他人說的。
即使是在多人對話的嘈雜環(huán)境里,小度仍然能分清哪一句是對自己下達(dá)的指令,像是擁有思想、懂得主人需求的“貼心管家”。

知道你們一臉懵逼聽不明白,看看百度老總李彥宏的現(xiàn)場演示就懂了~
百度展示的”全雙工免喚醒“黑科技打破過去啰嗦低效的喚醒方式,再一次刷新AI語音交互的上限。
讓我們享受到真正高效的“動(dòng)口不動(dòng)手,想做什么直接說”的便利。
黑科技三:百度鴻鵠芯片
百度不僅在軟件上努力,為了讓AI語音助手更好“聽見你,聽懂你”,還專門打造出針對語音交互的芯片——百度鴻鵠芯片。
芯片指令集全由自家定義,是實(shí)打?qū)嵉膰a(chǎn)芯片,擁有高精度、低功耗的特點(diǎn)。
有了針對性“芯片”加成,語音助手再次被強(qiáng)化,支持離線語音識別同時(shí)帶來更絲滑流暢的使用體驗(yàn)。

專門為語音助手打造一個(gè)芯片,百度在語音識別方面是真的“硬核”。
黑科技四:流式截?cái)嗟亩鄬幼⒁饬δP?/strong>
流式截?cái)喽鄬幼⒁饬δP?,相信很多機(jī)友看到后第一反應(yīng)是:啥玩意?能干嘛?

小雷用人話解釋下:目前大部分語音識別使用的技術(shù)叫“Attention模型”,特點(diǎn)是將我們輸入的語音全部上傳到服務(wù)器后,進(jìn)行翻譯再傳送回來形成文字。
這就導(dǎo)致了兩個(gè)問題:因?yàn)樾枰蟼髡卧挼椒?wù)器,所以語音識別的效率很低,加上對整段話進(jìn)行翻譯,難免會出現(xiàn)翻譯錯(cuò)誤的問題。
所以百度針對上面兩個(gè)問題,進(jìn)行了深入的研究,最終研發(fā)出“流式截?cái)嗟亩鄬幼⒁饬δP?/strong>”。

在“Attention模型”的基礎(chǔ)上,將整句語音進(jìn)行截?cái)啵梢郧暗囊淮蠖畏指畛梢恍《我恍《蔚厣蟼鞯椒?wù)器中進(jìn)行翻譯。
這樣一來不僅解決了翻譯轉(zhuǎn)化文字慢的問題,還大大提高了識別精度15%。

別小看小小的15%,這可是一項(xiàng)對全球?qū)W術(shù)界和工業(yè)界都具備重大意義的技術(shù)突破,如同當(dāng)年弗萊德里克將統(tǒng)計(jì)學(xué)加入到語音識別中,改變語音識別的一生。
AI技術(shù)改變的不止是生活,還有世界
隨著百度等大公司大力研發(fā)AI技術(shù),未來可不止讓我們生活變得便利那么簡單。
甚至是改變整個(gè)世界!不信?最近讓無數(shù)女性化身“上頭迷妹”的《親愛的,熱愛的》電視劇就劇透了未來AI技術(shù)有多牛。

在《親愛的,熱愛的》第18集中,佟年給韓商言講解了人工智能在刑偵方面的應(yīng)用:
她設(shè)計(jì)出一個(gè)人臉識別系統(tǒng),專門用于幫助警方搜索犯人調(diào)查犯罪,破案1000多起。
其中有一個(gè)案子特別夸張,佟年向系統(tǒng)輸入一張十年前的殺人犯照片,通過大數(shù)據(jù)匹配篩選,最終幫警方從14億人里成功找到已經(jīng)剃發(fā)當(dāng)和尚的殺人犯。

其實(shí)利用AI技術(shù)抓逃犯的事情是真實(shí)存在的,并非電視劇瞎編。
在2018年7月,衢州警方利用AI技術(shù)識別到嫌疑人的照片,并通過大數(shù)據(jù)追蹤其位置,破獲長達(dá)6年的“電魚迷案”。

AI不單可用于懲治犯罪,還能尋找失蹤人口。
2019年6月19日,深圳警方通過AI技術(shù)尋找到徐遠(yuǎn)靈被拐賣19年的親兒子。
失散19年的一家人,最終在深圳公安局幫助下團(tuán)聚,圓了徐遠(yuǎn)靈多年以來的夢。

小到智能音箱查天氣,大到查案追蹤逃犯,背后全是AI技術(shù)的默默貢獻(xiàn),蘊(yùn)藏著深厚的技術(shù)能量。
不久的未來,AI技術(shù)還會給我們帶來怎樣的驚喜?驚人的黑科技?讓我們共同拭目以待吧。
相關(guān)推薦
- 華納云香港高防服務(wù)器150G防御4.6折促銷,低至6888元/月,CN2大帶寬直連清洗,終身循環(huán)折扣
- RakSmart服務(wù)器成本優(yōu)化策略
- 2025年國內(nèi)免費(fèi)AI工具推薦:文章生成與圖像創(chuàng)作全攻略
- 自媒體推廣實(shí)時(shí)監(jiān)控從服務(wù)器帶寬到用戶行為解決方法
- 站長必讀:從“流量思維”到“IP思維”的品牌升級之路
- 從流量變現(xiàn)到信任變現(xiàn):個(gè)人站長的私域運(yùn)營方法論
- 傳統(tǒng)網(wǎng)站如何借力短視頻?從SEO到“內(nèi)容種草”的轉(zhuǎn)型策略
- AI時(shí)代,個(gè)人站長如何用AI工具實(shí)現(xiàn)“一人公司”