日前火山翻譯團(tuán)隊(duì)發(fā)布《請(qǐng)翻譯2020》年度盤點(diǎn),詳解過去一年上線的火山翻譯Studio、火山同傳等新品,以及在訓(xùn)練機(jī)器翻譯模型過程中遭遇的技術(shù)難點(diǎn)和解決方案。2020年最后三天,火山翻譯的調(diào)用量達(dá)日均1.38億次,日均翻譯的字符數(shù)超百億規(guī)模。如果把火山翻譯每天翻譯的字符打印在A4紙上,堆起來的紙張相當(dāng)于1.3個(gè)東方明珠的高度。
在2020年國際機(jī)器翻譯大賽(WMT20)上斬獲冠軍后,火山翻譯團(tuán)隊(duì)正投入在mRASP 、LightSeq和MGNMT等創(chuàng)新技術(shù)上。新技術(shù)的實(shí)踐將創(chuàng)造更激動(dòng)人心的體驗(yàn),或許在2021年,火山翻譯會(huì)帶來更多驚喜。
火山翻譯爆發(fā)年:2020新品涌現(xiàn)
在火山翻譯團(tuán)隊(duì)多年的技術(shù)積累、產(chǎn)品設(shè)計(jì)和方案支持下,火山翻譯提供了火山同傳、火山翻譯API、火山翻譯Studio、瀏覽器翻譯插件等一系列矩陣產(chǎn)品。
視頻翻譯工具:火山翻譯Studio
2020年3月,火山翻譯團(tuán)隊(duì)開發(fā)的新型AI視頻翻譯工具——火山翻譯Studio V0.1版本上線,并面向用戶進(jìn)入內(nèi)測階段。
借助先進(jìn)的自動(dòng)語音識(shí)別和神經(jīng)機(jī)器翻譯技術(shù),火山翻譯Studio為視頻創(chuàng)作者們提供專業(yè)高效的視頻「轉(zhuǎn)寫-打軸-翻譯」全流程服務(wù),將視頻譯制流程中,三件復(fù)雜的工作「一站式」完成。產(chǎn)品支持交互式翻譯和術(shù)語干預(yù)等多種輔助翻譯功能,在提高翻譯效率的同時(shí),讓字幕翻譯更加個(gè)性化。這款工具營造了更良好的雙語字幕制作環(huán)境,大大降低了雙語字幕的制作成本,幫助用戶輕松解決視頻內(nèi)容的跨語言傳播問題。

火山翻譯Studio,自動(dòng)生成雙語字幕,支持交互式翻譯和術(shù)語干預(yù)等多種功能
直播與會(huì)議翻譯:火山同傳
2020年10月,火山翻譯團(tuán)隊(duì)發(fā)布了智能同傳產(chǎn)品——火山同傳,致力于為線下會(huì)議、線上直播提供實(shí)時(shí)機(jī)器同傳服務(wù)。一年來,火山同傳先后服務(wù)和參與了飛書未來無限大會(huì)、知名藝術(shù)家村上隆首場中國直播、第四屆CTDC首席技術(shù)官領(lǐng)袖峰會(huì)等多場直播與大會(huì)。
為確保實(shí)時(shí)翻譯的準(zhǔn)確性和實(shí)時(shí)字幕的最佳展示效果,火山同傳提供「全屏逐字式字幕顯示方案」和「影院級(jí)字幕重保方案」,滿足不同場景的需求。產(chǎn)品包含55種語言翻譯及中英日三語聽寫識(shí)別等高性能服務(wù)能力,借助人工保障方案,實(shí)時(shí)校準(zhǔn),保證字幕精準(zhǔn)性和流暢性。獨(dú)家提供的「VFT領(lǐng)域自適應(yīng)服務(wù)」,讓翻譯算法的翻譯風(fēng)格更加貼合會(huì)議在語體等方面的需求,為直播字幕展示效果提供了更優(yōu)路徑。

知名日本藝術(shù)家村上隆首場中國直播,火山同傳提供智能同傳字幕
精準(zhǔn)翻譯的在線平臺(tái):火山翻譯網(wǎng)頁版
11月,火山翻譯網(wǎng)頁版(translate.volcengine.cn)正式上線,并發(fā)布了中英雙語版本,集成了PC端和WAP端的在線翻譯工具與其他相關(guān)產(chǎn)品的介紹頁面。
火山翻譯在線翻譯平臺(tái)支持55個(gè)語種全語向互譯,單次可翻譯高達(dá)2000字符。網(wǎng)頁提供「語種全自動(dòng)檢測」、「譯文一鍵復(fù)制」、「雙語對(duì)照查看」等功能,用戶可以高效獲取跨語言翻譯服務(wù)。
產(chǎn)品介紹頁則系統(tǒng)展示了「機(jī)器翻譯API」、「視頻字幕翻譯」、「智能同傳」等火山翻譯旗下的優(yōu)質(zhì)產(chǎn)品,此外還提供了「網(wǎng)頁翻譯-瀏覽器插件」等應(yīng)用的體驗(yàn)入口。火山翻譯面向B端客戶的相關(guān)服務(wù)能力也已集成在火山引擎智能應(yīng)用板塊當(dāng)中,為更多客戶提供企業(yè)級(jí)的技術(shù)產(chǎn)品與解決方案。

火山翻譯官網(wǎng)在線翻譯頁,支持55個(gè)語種全語向互譯
翻越“三座大山”,打造多語種、大量級(jí)服務(wù)的技術(shù)能力
強(qiáng)大的翻譯應(yīng)用背后離不開火山翻譯團(tuán)隊(duì)的算法科學(xué)家、工程師團(tuán)隊(duì)歷時(shí)數(shù)年的努力。在完整服務(wù)日均過億次調(diào)用的基礎(chǔ)上,團(tuán)隊(duì)追求支持更多語向、提供更好的翻譯服務(wù)。
語種擴(kuò)展,支持55門語言互譯
這一年,火山翻譯在翻譯語種擴(kuò)展上持續(xù)發(fā)力,從最初的幾門語言,到現(xiàn)今支持55個(gè)語種、2970個(gè)語向之間的互譯。其中包括馬其頓語、斯洛文尼亞語、烏爾都語、旁遮普語等小語種。

在訓(xùn)練機(jī)器翻譯模型的過程中,火山翻譯團(tuán)隊(duì)成功翻越了“三座大山”:
1. 涉足冷門的翻譯領(lǐng)域
某些翻譯領(lǐng)域的鮮見性加劇了模型訓(xùn)練的難度,尤其是「泛娛樂場景」這樣具有高度不規(guī)范性和娛樂性的翻譯領(lǐng)域。對(duì)此,火山翻譯綜合運(yùn)用「NMT領(lǐng)域適應(yīng)、領(lǐng)域數(shù)據(jù)增強(qiáng)、大模型學(xué)習(xí)、多領(lǐng)域模型」等更多領(lǐng)域的方法,結(jié)合各領(lǐng)域的特點(diǎn)進(jìn)行優(yōu)化,攻克了領(lǐng)域冷門問題帶來的算法優(yōu)化障礙。
2. 部分語種平行數(shù)據(jù)匱乏
「語種數(shù)量多、小語種的平行語料匱乏」一直是訓(xùn)練機(jī)器翻譯模型工作中的痛點(diǎn)。在平行數(shù)據(jù)稀缺的情景下,火山翻譯的工程師們使用基于「自研Fluid平臺(tái)」的半監(jiān)督訓(xùn)練體系,開展多語言的預(yù)訓(xùn)練工作,成功構(gòu)建出了「多語言」翻譯模型,攻克了平行數(shù)據(jù)缺乏而造成的模型效果不佳、翻譯性能不達(dá)標(biāo)等技術(shù)難題。

基于Fluid平臺(tái)的半監(jiān)督訓(xùn)練

層次化建模
3. 服務(wù)量級(jí)大
“業(yè)務(wù)的奔跑中資源永遠(yuǎn)是不夠的”。在算法的訓(xùn)練和優(yōu)化進(jìn)程中,由于GPU資源的緊缺,待訓(xùn)練的語種數(shù)量卻很龐大,火山翻譯團(tuán)隊(duì)亟待提升GPU的利用率來應(yīng)對(duì)棘手的挑戰(zhàn)。對(duì)此,團(tuán)隊(duì)使用了「多語言翻譯模型」來整合資源,同時(shí)進(jìn)行多個(gè)長尾語種的訓(xùn)練,將資源利用率大大提升,成功滿足大量級(jí)服務(wù)的需求。
專業(yè)評(píng)測,火山翻譯獲國際比賽冠軍
不斷打破語種表現(xiàn)的天花板,持續(xù)迭代提升各語向翻譯質(zhì)量,火山翻譯在國際舞臺(tái)上表現(xiàn)出不俗的競爭力。
在2020年國際機(jī)器翻譯大賽(WMT20)上,火山翻譯團(tuán)隊(duì)在39支參賽隊(duì)伍中殺出重圍,以顯著優(yōu)勢在「中文-英語」的關(guān)鍵語向翻譯項(xiàng)目競賽上拿下了世界冠軍。此外,火山翻譯還拿下了「德語-英語」、「德語-法語」、「英語-高棉語」和「英語-普什圖語」語向機(jī)器翻譯項(xiàng)目的冠軍,更斬獲了平行語料過濾對(duì)齊項(xiàng)目普什圖語和高棉語的兩項(xiàng)第一。
歷年比賽中,「中文-英語」語向的翻譯任務(wù)都是參賽隊(duì)伍最多、競爭最為激烈的機(jī)器翻譯任務(wù)之一。火山翻譯作為一只年輕的團(tuán)隊(duì),參加了「非受限場景」的比賽——即在給定測試集的情況下,允許使用任何數(shù)據(jù)和方法探索翻譯效果極限的比賽方式。同時(shí),組織方也引入了四個(gè)權(quán)威的在線機(jī)器翻譯商業(yè)系統(tǒng)(Online-A、G、Z、B)作為對(duì)比。這種比賽模式被認(rèn)為是“最能體現(xiàn)翻譯團(tuán)隊(duì)數(shù)據(jù)和算法綜合能力”的場景。經(jīng)過比賽組委會(huì)邀請(qǐng)的語言專家的系統(tǒng)評(píng)估,火山翻譯以明顯的優(yōu)勢奪得了該項(xiàng)冠軍。

WMT20 中英翻譯前幾名系統(tǒng)得分,火山翻譯排名第一。Ave.z代表人工評(píng)估標(biāo)準(zhǔn)化分?jǐn)?shù),也是目前機(jī)器翻譯最受認(rèn)可的指標(biāo)。
相比「中文-英語」語向,「德語-英語」語向則是WMT比賽上的傳統(tǒng)項(xiàng)目之一,也是最受歐洲國家的代表隊(duì)們關(guān)注的競賽語向。在「德語-英語」比賽最后的人工評(píng)價(jià)環(huán)節(jié)中,火山翻譯依然表現(xiàn)出杰出的技術(shù)水準(zhǔn),拿下第一名的成績。最終,國際機(jī)器翻譯大賽的組委會(huì)對(duì)于團(tuán)隊(duì)給出了很高的評(píng)價(jià),“作為新的參與者,火山翻譯表現(xiàn)尤為出色(particularly well),超越了很多傳統(tǒng)隊(duì)伍”。
下圖為火山翻譯和谷歌翻譯在各語向測試集上的表現(xiàn)對(duì)比信息,橫軸為語向信息,縱軸展示了BLEU值的差值。從圖中的數(shù)據(jù)可見,在左側(cè)棕色區(qū)域表示的多數(shù)語向上,火山翻譯模型的自動(dòng)評(píng)估結(jié)果均高于谷歌。其中「日語-中文」、「印尼語-英語」、「中文-日語」三個(gè)語向更是比谷歌翻譯高出了10個(gè)BLEU值以上。(注:BLEU全稱Bilingual Evaluation Understudy,是最廣泛使用的機(jī)器翻譯自動(dòng)評(píng)價(jià)指標(biāo))

火山翻譯和谷歌翻譯在各語向測試集上的表現(xiàn)對(duì)比
在和英語進(jìn)行互譯的語向中,火山翻譯有72%的機(jī)器自動(dòng)評(píng)價(jià)結(jié)果優(yōu)于谷歌翻譯。火山翻譯也正持續(xù)追求在更多語向上獲得優(yōu)質(zhì)表現(xiàn),爭取為全球更廣泛的用戶群體提供令人滿意的翻譯服務(wù)。
在2020年最后三天,火山翻譯日均翻譯的字符數(shù)達(dá)到百億規(guī)模,翻譯調(diào)用量達(dá)日均1.38億次,穩(wěn)定服務(wù)包括飛書、今日頭條在內(nèi)的數(shù)十個(gè)業(yè)務(wù)?;鹕椒g可通過公有云、私有化部署等多種形式接入,支持垂直行業(yè)模型快速定制和部署,滿足各垂直行業(yè)的個(gè)性化翻譯需求。
新技術(shù)將帶來更激動(dòng)人心的翻譯體驗(yàn)
對(duì)翻譯產(chǎn)品和服務(wù)來說,無論是模型還是推理能力,都需要持續(xù)的創(chuàng)新和投入。在2020年度盤點(diǎn)中,火山翻譯團(tuán)隊(duì)披露了正在持續(xù)探索和實(shí)踐的翻譯技術(shù):
創(chuàng)造多語言預(yù)訓(xùn)練的新范式mRASP
多語言翻譯新范式mRASP(multilingual Random Aligned Substitution Pre-training)建立的核心思想是打造「機(jī)器翻譯界的BERT模型」,即通過預(yù)訓(xùn)練技術(shù)進(jìn)行規(guī)模化訓(xùn)練,再在具體語種上進(jìn)行精細(xì)微調(diào),即可達(dá)到領(lǐng)先的翻譯效果。其在32個(gè)語對(duì)上預(yù)訓(xùn)練出的統(tǒng)一模型,在至少47個(gè)翻譯測試集上均取得了全面的顯著提升。在火山翻譯中,該技術(shù)已被廣泛使用,得到了業(yè)務(wù)上的實(shí)踐檢驗(yàn)。
以BERT為代表的預(yù)訓(xùn)練范式幾乎橫掃了所有的文本理解任務(wù),成為各種NLP任務(wù)的基石。mRASP不同于以往的機(jī)器翻譯范式,樹立了機(jī)器翻譯的預(yù)訓(xùn)練和微調(diào)的成功路徑。
mRASP主要針對(duì)機(jī)器翻譯的任務(wù)場景設(shè)計(jì),具有三大應(yīng)用優(yōu)勢:
1. 打破了資源場景的限制
不論平行雙語資源高低,均能有提升。對(duì)于資源豐富的語言,比如標(biāo)準(zhǔn)英法翻譯任務(wù),在已經(jīng)有4000萬平行語句訓(xùn)練情況下,使用mRASP依然能顯著提升,達(dá)到了44.3的BLEU值。在低資源語言上,mRASP的表現(xiàn)令人驚喜,極端情況下,只需要一萬句訓(xùn)練數(shù)據(jù),通過10分鐘微調(diào)訓(xùn)練,就能得到一個(gè)還不錯(cuò)的翻譯系統(tǒng)。
2. 打破了語種數(shù)量的限制
任何語言的翻譯,無論是孟加拉語到古吉拉特語,還是印地語到菲利賓語,只要是地球上的語言,都可以用mRASP直接進(jìn)行微調(diào),并且效果可期。
3. 資源消耗低
相比于其它上百張卡的「軍備競賽」預(yù)訓(xùn)練玩法,mRASP更平民,僅需要8張卡訓(xùn)練一周就可以完成。簡單來說,mRASP可以理解為機(jī)器翻譯領(lǐng)域的輕量級(jí)BERT,只要是機(jī)器翻譯任務(wù),對(duì)于任何場景或者語言,使用mRASP都可能會(huì)有意想不到的收獲。

mRASP基于Transformer框架,利用多個(gè)語對(duì)的平行語料建立預(yù)訓(xùn)練模型
高性能序列推理引擎LightSeq
LightSeq是一款極速且同時(shí)支持多特性的高性能序列推理引擎,它對(duì)以Transformer為基礎(chǔ)的序列特征提取器(Encoder)和自回歸的序列解碼器(Decoder)做了深度優(yōu)化,早在2019年12月就已經(jīng)開源,應(yīng)用在了包括火山翻譯在內(nèi)的眾多業(yè)務(wù)和場景。據(jù)了解,這應(yīng)該是業(yè)界第一款完整支持Transformer、GPT等多種模型高速推理的開源引擎。
LightSeq可以應(yīng)用于機(jī)器翻譯、自動(dòng)問答、智能寫作、對(duì)話回復(fù)生成等眾多文本生成場景,大大提高線上模型推理速度,改善用戶的使用體驗(yàn),降低企業(yè)的運(yùn)營服務(wù)成本。
相比于目前其他開源序列推理引擎,LightSeq具有如下幾點(diǎn)優(yōu)勢:
1. 高性能
LightSeq推理速度非常快。以翻譯任務(wù)為例,LightSeq相比于TensorFlow實(shí)現(xiàn)最多可以達(dá)到14倍加速。同時(shí)領(lǐng)先目前其他開源序列推理引擎,例如最多可比Faster Transformer快1.4倍。
2. 支持模型功能多
LightSeq支持BERT、GPT、Transformer、VAE等眾多模型,同時(shí)支持beam search、diverse beam search、sampling等多種解碼方式。
3. 簡單易用,無縫銜接TensorFlow、PyTorch等深度學(xué)習(xí)框架
LightSeq通過定義模型協(xié)議,支持靈活導(dǎo)入各種深度學(xué)習(xí)框架訓(xùn)練完的模型。同時(shí)包含了開箱即用的端到端模型服務(wù),即在不需要寫一行代碼的情況下部署高速模型推理,并靈活支持多層次復(fù)用。

Transformer解碼示意圖
鏡像生成式翻譯模型MGNMT
鏡像翻譯生成模型MGNMT(Mirror-Generative Neural Machine Translation)旨在解決機(jī)器翻譯在雙語平行數(shù)據(jù)缺乏場景中的應(yīng)用問題,目前已應(yīng)用到火山翻譯多個(gè)語向的翻譯模型中。通過鏡像生成方式,MGNMT利用互為鏡像翻譯方向的相關(guān)性,同時(shí)將翻譯模型和語言模型結(jié)合,讓模型間互相促進(jìn),從而顯著提升翻譯質(zhì)量。
目前機(jī)器翻譯模型需要在大量的雙語平行數(shù)據(jù)上訓(xùn)練,從而得到不錯(cuò)的性能。然而,在很多低資源的語向或領(lǐng)域場景中,雙語平行數(shù)據(jù)是非常稀缺的。這種情況下,雙語平行數(shù)據(jù)非常珍貴,需要更高效地利用;并且由于雙語數(shù)據(jù)稀缺,充分利用大規(guī)模非平行單語數(shù)據(jù)也十分重要。
為了最大化對(duì)雙語數(shù)據(jù)和單語數(shù)據(jù)的有效利用,MGNMT采用了以下幾種關(guān)鍵技術(shù):
1. 通過一個(gè)共享的隱變量,將兩個(gè)翻譯方向的翻譯模型和兩個(gè)語言的語言模型結(jié)合在同一個(gè)概率模型中。
2. 訓(xùn)練時(shí),兩個(gè)翻譯方向相互促進(jìn)。通過隱變量建模了互為譯文的雙語數(shù)據(jù)的語義等價(jià)性,讓兩個(gè)翻譯方向的模型可以更好地利用雙語平行數(shù)據(jù);同時(shí),通過隱變量作為中間橋梁,任意一方的單語數(shù)據(jù)都可以同時(shí)幫助到兩個(gè)翻譯方向的模型,從而也更好地利用了單語數(shù)據(jù)。
3. 解碼時(shí),語言模型和翻譯模型相互協(xié)作。正向翻譯模型和目標(biāo)語言模型首先用beam search進(jìn)行協(xié)同解碼,得到多個(gè)候選譯文;隨后反向翻譯模型和源語言語言模型對(duì)候選譯文進(jìn)行排序,選擇出最忠實(shí)于原文語義的最佳譯文。
在低資源的情況下,MGNMT在多個(gè)數(shù)據(jù)上都得到了最好的翻譯結(jié)果。相較于傳統(tǒng)的Transformer模型,以及Transformer結(jié)合回翻譯(Back-Translation)進(jìn)行數(shù)據(jù)增強(qiáng)以利用單語數(shù)據(jù)的方式,其結(jié)果都顯示了比較一致的、顯著的提升。

MGNMT模型示意圖。MGNMT同時(shí)建模了兩個(gè)翻譯方向的翻譯模型和兩個(gè)語言模型。
結(jié)語
“我們和你一樣,一步一踉蹌,卻堅(jiān)定不移。我們和你一樣,經(jīng)歷波折,卻滿懷希望”。在《請(qǐng)翻譯2020》年度盤點(diǎn)中,火山翻譯團(tuán)隊(duì)表示,為了呈現(xiàn)更佳的翻譯效果,創(chuàng)造更好的跨語言體驗(yàn),火山翻譯孜孜不倦地為不同的語言提供最優(yōu)解法,為了“讓世界更小,讓不同的文化更近”。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。
全世界的打工人都一樣,開言英語App盤點(diǎn)國外成人的煩惱 下一篇
騰訊看點(diǎn)推出“游戲新春嘉年華”,八大國民級(jí)游戲會(huì)場送豐厚大禮
相關(guān)推薦
- 華納云香港高防服務(wù)器150G防御4.6折促銷,低至6888元/月,CN2大帶寬直連清洗,終身循環(huán)折扣
- 2025年國內(nèi)免費(fèi)AI工具推薦:文章生成與圖像創(chuàng)作全攻略
- 站長必讀:從“流量思維”到“IP思維”的品牌升級(jí)之路
- 從流量變現(xiàn)到信任變現(xiàn):個(gè)人站長的私域運(yùn)營方法論
- 傳統(tǒng)網(wǎng)站如何借力短視頻?從SEO到“內(nèi)容種草”的轉(zhuǎn)型策略
- AI時(shí)代,個(gè)人站長如何用AI工具實(shí)現(xiàn)“一人公司”
- 個(gè)人站長消亡論?從“消失”到“重生”的三大破局路徑
- raksmart法蘭克福云服務(wù)器延遲高嗎?