兩會召開之際,搜狗聯(lián)合新華社推出的全球首個3D AI合成主播“新小微”正式亮相上崗,為觀眾播報最新兩會新聞資訊。自2018年搜狗自身的“分身技術”推出全球首個AI合成主播后,這也是搜狗首次將2D虛擬人升級為3D形象。
一個很直觀的感受是,較之前的2D AI合成主播,3D“新小微”更加立體,在呈現(xiàn)方式上可以支持多機位多景深以及360°任意角度,更接近我們平日在電視看新聞的演播室調(diào)度。
3D AI合成主播可以支持多機位拍攝
2D AI合成主播
搜狗3D AI合成主播背后展現(xiàn)了哪些技術提升?對于商用落地和搜狗自身的戰(zhàn)略規(guī)劃分別帶來哪些價值?對此,搜狗AI合成主播研發(fā)團隊首次向搜狐科技在內(nèi)的媒體揭秘了其背后故事。
搜狗AI交互技術部總理陳偉介紹,3D AI合成主播“新小微”以新華社記者趙琬微為原型,首先通過掃描還原、面部肌肉驅(qū)動、表情肢體捕捉等技術,生產(chǎn)出高度還原真人發(fā)膚的逼真數(shù)字人模型;同時結(jié)合多模態(tài)建模技術,使用語音、圖像、文本、3D肌肉運動數(shù)據(jù)等多模態(tài)信息完成聯(lián)合建模訓練生成現(xiàn)在我們看到的3D AI合成主播。
事實上,超寫實擬人化的“3D數(shù)字人”并非搜狗首創(chuàng),其中CG動畫技術已有成熟應用于影視特效制作的案例,完全可以達到以假亂真的地步。在電影《速度與激情7》中,已逝主演保羅·沃克通過這種“虛擬重生”的方式,依然承擔了片中較重的戲份,但與之對應的是超長的制作周期與高昂的花費,因此帶來的后期渲染費用高達5000萬美金。
“在游戲3D行業(yè)里面,制作一分鐘寫實度很高的CG視頻,一個專業(yè)的美術師差不多要花一個月的時間;我們之前還了解到一個公司,做了一部電影,其中剪出來超寫實的(CG)片段一分半,但是他們幾百個人做了一年半,這已經(jīng)算是做得非??斓牧?rdquo;,陳偉表示。
《速度與激情7》中虛擬合成的經(jīng)典鏡頭
不過“新小微”的播報新聞并不需要如此高成本且繁復的操作步驟。因為此前制作2D AI合成主播的經(jīng)驗積累,以及AI帶來的自動化和低成本優(yōu)勢,搜狗從立項到完工大約花費了半年時間,制作費用大約耗費了百萬元人民幣。
雖然逼真度來看仍與一流的影視特效存在差距,但3D AI合成主播一個非常重要的特點是文本驅(qū)動,即輸入一段新聞文本就能輸出一個視頻或者視頻流的能力,而且這種視頻輸出的能力是實時的。我們平常接觸的無論是電影特效人物還是游戲里的NPC,往往都需要大量的人力和時間來打磨??梢运压?D AI合成主播是一項“高性價比” 的創(chuàng)新,體現(xiàn)了AI“降本增效”的價值所在。
文本驅(qū)動的背后原因,是相比較CG技術,搜狗實現(xiàn)了AI驅(qū)動。事實上,即便是看起來難度低于超寫實“數(shù)字人”的卡通虛擬歌手“洛天依”,它所能最終呈現(xiàn)的效果,都是通過真人采集-后期制作-重復播放來實現(xiàn)。而“新小微”的制作僅花費了1個小時來采集原型人物新華社記者趙琬微的聲音模型。在此之前,搜狗已經(jīng)通過數(shù)十人、上千小時、涵蓋新聞、小說、客服、散文等領域的數(shù)據(jù)訓練出了一套基礎模型,然后再通過原型趙琬微的少量數(shù)據(jù)進行迭代優(yōu)化即可。
這樣的方式也意味著可以遷移學習,從而誕生不止一個“新小微”。除了遷移能力,從交付來看,3D AI合成主播的的門檻也并不高,只需要給客戶提供一個在線生成的服務網(wǎng)站。
目前,虛擬“數(shù)字人”的研發(fā)制作已經(jīng)成為全球各大科技公司AI實力儲備的一部分,國外如三星,國內(nèi)如百度、科大訊飛、商湯等,除AI主播外,金融、司法、教育領域均有落地。
平安普惠和搜狗合力打造的 AI視頻面審機器人
而當虛擬“數(shù)字人”從2D升級到3D后,隨之增強的靈活性也會意味著其適用的場景越來越多,“現(xiàn)在我們可能看到(AI主播)開始走進來,站著給你播報,可能不久的將來,他們就可能去做外景了,去采訪人了”,搜狗AI交互技術部總理陳偉表示。
在今年年初的CES上,三星的“人造人”項目Neon曾引發(fā)軒然大波,在宣傳視頻的展示中,三星對這些以假亂真的“數(shù)字人”未來應用場景預設更為廣泛——他們或是你的老師,健康咨詢師,也可能成為電影明星。
搜狗也同樣擁有更為宏大的愿景——“以語言為核心的AI技術戰(zhàn)略布局,從語言能擴展出自然交互和知識計算,最后希望達到的是虛擬個人助理”,陳偉表示。
不過從“Siri之父”最終棄Siri而去,再到“小愛同學”在雷軍在展示時多次“短路”,“AI個人助理”存在了很多年,也尷尬了很多年——其智能程度完全無法承擔我們對“個人助理”這四個字背后預期的高度。
陳偉也坦誠,在超寫實虛擬“數(shù)字人”這條賽道上,相比逼真度的提升,真正的難點是卡在了“語言理解”上。在感知層面,強于表達的虛擬“數(shù)字人”可以替代一部分主播的工作,卻很難實現(xiàn)與人更進一步的互動——“通用的語言理解目前機器做得還是不夠,我們看到的語音助手類無非就是問問天氣怎么樣,點個歌,插科打諢一下。所以我們也逐步看到,針對垂直場景定制它的對話能力,是目前比較可行的落地方案”。
不同的垂直場景定制也意味著更高的難度系數(shù)。“跳到教育領域,如果是一個線上的老師,他跟學生溝通的時候不可能像主播坐得那樣筆直,學生表現(xiàn)很棒的時候,他可能需要時不時舉個大拇指”,陳偉稱。而在金融場景下,AI虛擬客服則需要通過一對一聊天,不斷的觀察、反問來拿到客戶全部信息。
沿著場景驅(qū)動的思路,百度、科大訊飛、商湯等人工智能領頭企業(yè)都在不同垂直領域進行探索。對于行業(yè)競爭,陳偉表示,“無論從識別到生成的,以及融合在一起的多模態(tài)能力,以及對話的能力、問答的能力,這里涉及的技術特別多,技術串聯(lián)也特別多。我覺得一個公司想做好數(shù)字人相關的技術,需要一套完整體系和體系之間的協(xié)同,這是我認為比較大的壁壘。”