欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          3D AI合成主播背后:你在游戲里看到的CG效果其實(shí)很簡單

          兩會(huì)召開之際,搜狗聯(lián)合新華社推出的全球首個(gè)3D AI合成主播“新小微”正式亮相上崗,為觀眾播報(bào)最新兩會(huì)新聞資訊。自2018年搜狗自身的“分身技術(shù)”推出全球首個(gè)AI合成主播后,這也是搜狗首次將2D虛擬人升級為3D形象。

          一個(gè)很直觀的感受是,較之前的2D AI合成主播,3D“新小微”更加立體,在呈現(xiàn)方式上可以支持多機(jī)位多景深以及360°任意角度,更接近我們平日在電視看新聞的演播室調(diào)度。

          3D AI合成主播可以支持多機(jī)位拍攝

          3D AI合成主播背后:你在游戲里看到的CG效果其實(shí)很簡單

          2D AI合成主播

          搜狗3D AI合成主播背后展現(xiàn)了哪些技術(shù)提升?對于商用落地和搜狗自身的戰(zhàn)略規(guī)劃分別帶來哪些價(jià)值?對此,搜狗AI合成主播研發(fā)團(tuán)隊(duì)首次向搜狐科技在內(nèi)的媒體揭秘了其背后故事。

          搜狗AI交互技術(shù)部總理陳偉介紹,3D AI合成主播“新小微”以新華社記者趙琬微為原型,首先通過掃描還原、面部肌肉驅(qū)動(dòng)、表情肢體捕捉等技術(shù),生產(chǎn)出高度還原真人發(fā)膚的逼真數(shù)字人模型;同時(shí)結(jié)合多模態(tài)建模技術(shù),使用語音、圖像、文本、3D肌肉運(yùn)動(dòng)數(shù)據(jù)等多模態(tài)信息完成聯(lián)合建模訓(xùn)練生成現(xiàn)在我們看到的3D AI合成主播。

          事實(shí)上,超寫實(shí)擬人化的“3D數(shù)字人”并非搜狗首創(chuàng),其中CG動(dòng)畫技術(shù)已有成熟應(yīng)用于影視特效制作的案例,完全可以達(dá)到以假亂真的地步。在電影《速度與激情7》中,已逝主演保羅·沃克通過這種“虛擬重生”的方式,依然承擔(dān)了片中較重的戲份,但與之對應(yīng)的是超長的制作周期與高昂的花費(fèi),因此帶來的后期渲染費(fèi)用高達(dá)5000萬美金。

          “在游戲3D行業(yè)里面,制作一分鐘寫實(shí)度很高的CG視頻,一個(gè)專業(yè)的美術(shù)師差不多要花一個(gè)月的時(shí)間;我們之前還了解到一個(gè)公司,做了一部電影,其中剪出來超寫實(shí)的(CG)片段一分半,但是他們幾百個(gè)人做了一年半,這已經(jīng)算是做得非??斓牧?rdquo;,陳偉表示。

          《速度與激情7》中虛擬合成的經(jīng)典鏡頭

          不過“新小微”的播報(bào)新聞并不需要如此高成本且繁復(fù)的操作步驟。因?yàn)榇饲爸谱?D AI合成主播的經(jīng)驗(yàn)積累,以及AI帶來的自動(dòng)化和低成本優(yōu)勢,搜狗從立項(xiàng)到完工大約花費(fèi)了半年時(shí)間,制作費(fèi)用大約耗費(fèi)了百萬元人民幣。

          雖然逼真度來看仍與一流的影視特效存在差距,但3D AI合成主播一個(gè)非常重要的特點(diǎn)是文本驅(qū)動(dòng),即輸入一段新聞文本就能輸出一個(gè)視頻或者視頻流的能力,而且這種視頻輸出的能力是實(shí)時(shí)的。我們平常接觸的無論是電影特效人物還是游戲里的NPC,往往都需要大量的人力和時(shí)間來打磨??梢运压?D AI合成主播是一項(xiàng)“高性價(jià)比” 的創(chuàng)新,體現(xiàn)了AI“降本增效”的價(jià)值所在。

          3D AI合成主播背后:你在游戲里看到的CG效果其實(shí)很簡單

          文本驅(qū)動(dòng)的背后原因,是相比較CG技術(shù),搜狗實(shí)現(xiàn)了AI驅(qū)動(dòng)。事實(shí)上,即便是看起來難度低于超寫實(shí)“數(shù)字人”的卡通虛擬歌手“洛天依”,它所能最終呈現(xiàn)的效果,都是通過真人采集-后期制作-重復(fù)播放來實(shí)現(xiàn)。而“新小微”的制作僅花費(fèi)了1個(gè)小時(shí)來采集原型人物新華社記者趙琬微的聲音模型。在此之前,搜狗已經(jīng)通過數(shù)十人、上千小時(shí)、涵蓋新聞、小說、客服、散文等領(lǐng)域的數(shù)據(jù)訓(xùn)練出了一套基礎(chǔ)模型,然后再通過原型趙琬微的少量數(shù)據(jù)進(jìn)行迭代優(yōu)化即可。

          這樣的方式也意味著可以遷移學(xué)習(xí),從而誕生不止一個(gè)“新小微”。除了遷移能力,從交付來看,3D AI合成主播的的門檻也并不高,只需要給客戶提供一個(gè)在線生成的服務(wù)網(wǎng)站。

          目前,虛擬“數(shù)字人”的研發(fā)制作已經(jīng)成為全球各大科技公司AI實(shí)力儲(chǔ)備的一部分,國外如三星,國內(nèi)如百度、科大訊飛、商湯等,除AI主播外,金融、司法、教育領(lǐng)域均有落地。

          3D AI合成主播背后:你在游戲里看到的CG效果其實(shí)很簡單

          平安普惠和搜狗合力打造的 AI視頻面審機(jī)器人

          而當(dāng)虛擬“數(shù)字人”從2D升級到3D后,隨之增強(qiáng)的靈活性也會(huì)意味著其適用的場景越來越多,“現(xiàn)在我們可能看到(AI主播)開始走進(jìn)來,站著給你播報(bào),可能不久的將來,他們就可能去做外景了,去采訪人了”,搜狗AI交互技術(shù)部總理陳偉表示。

          在今年年初的CES上,三星的“人造人”項(xiàng)目Neon曾引發(fā)軒然大波,在宣傳視頻的展示中,三星對這些以假亂真的“數(shù)字人”未來應(yīng)用場景預(yù)設(shè)更為廣泛——他們或是你的老師,健康咨詢師,也可能成為電影明星。

          搜狗也同樣擁有更為宏大的愿景——“以語言為核心的AI技術(shù)戰(zhàn)略布局,從語言能擴(kuò)展出自然交互和知識(shí)計(jì)算,最后希望達(dá)到的是虛擬個(gè)人助理”,陳偉表示。

          不過從“Siri之父”最終棄Siri而去,再到“小愛同學(xué)”在雷軍在展示時(shí)多次“短路”,“AI個(gè)人助理”存在了很多年,也尷尬了很多年——其智能程度完全無法承擔(dān)我們對“個(gè)人助理”這四個(gè)字背后預(yù)期的高度。

          陳偉也坦誠,在超寫實(shí)虛擬“數(shù)字人”這條賽道上,相比逼真度的提升,真正的難點(diǎn)是卡在了“語言理解”上。在感知層面,強(qiáng)于表達(dá)的虛擬“數(shù)字人”可以替代一部分主播的工作,卻很難實(shí)現(xiàn)與人更進(jìn)一步的互動(dòng)——“通用的語言理解目前機(jī)器做得還是不夠,我們看到的語音助手類無非就是問問天氣怎么樣,點(diǎn)個(gè)歌,插科打諢一下。所以我們也逐步看到,針對垂直場景定制它的對話能力,是目前比較可行的落地方案”。

          不同的垂直場景定制也意味著更高的難度系數(shù)。“跳到教育領(lǐng)域,如果是一個(gè)線上的老師,他跟學(xué)生溝通的時(shí)候不可能像主播坐得那樣筆直,學(xué)生表現(xiàn)很棒的時(shí)候,他可能需要時(shí)不時(shí)舉個(gè)大拇指”,陳偉稱。而在金融場景下,AI虛擬客服則需要通過一對一聊天,不斷的觀察、反問來拿到客戶全部信息。

          沿著場景驅(qū)動(dòng)的思路,百度、科大訊飛、商湯等人工智能領(lǐng)頭企業(yè)都在不同垂直領(lǐng)域進(jìn)行探索。對于行業(yè)競爭,陳偉表示,“無論從識(shí)別到生成的,以及融合在一起的多模態(tài)能力,以及對話的能力、問答的能力,這里涉及的技術(shù)特別多,技術(shù)串聯(lián)也特別多。我覺得一個(gè)公司想做好數(shù)字人相關(guān)的技術(shù),需要一套完整體系和體系之間的協(xié)同,這是我認(rèn)為比較大的壁壘。”

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)