日前火山翻譯團隊發(fā)布《請翻譯2020》年度盤點,詳解過去一年上線的火山翻譯Studio、火山同傳等新品,以及在訓練機器翻譯模型過程中遭遇的技術難點和解決方案。2020年最后三天,火山翻譯的調(diào)用量達日均1.38億次,日均翻譯的字符數(shù)超百億規(guī)模。如果把火山翻譯每天翻譯的字符打印在A4紙上,堆起來的紙張相當于1.3個東方明珠的高度。
在2020年國際機器翻譯大賽(WMT20)上斬獲冠軍后,火山翻譯團隊正投入在mRASP 、LightSeq和MGNMT等創(chuàng)新技術上。新技術的實踐將創(chuàng)造更激動人心的體驗,或許在2021年,火山翻譯會帶來更多驚喜。
火山翻譯爆發(fā)年:2020新品涌現(xiàn)
在火山翻譯團隊多年的技術積累、產(chǎn)品設計和方案支持下,火山翻譯提供了火山同傳、火山翻譯API、火山翻譯Studio、瀏覽器翻譯插件等一系列矩陣產(chǎn)品。
視頻翻譯工具:火山翻譯Studio
2020年3月,火山翻譯團隊開發(fā)的新型AI視頻翻譯工具——火山翻譯Studio V0.1版本上線,并面向用戶進入內(nèi)測階段。
借助先進的自動語音識別和神經(jīng)機器翻譯技術,火山翻譯Studio為視頻創(chuàng)作者們提供專業(yè)高效的視頻「轉寫-打軸-翻譯」全流程服務,將視頻譯制流程中,三件復雜的工作「一站式」完成。產(chǎn)品支持交互式翻譯和術語干預等多種輔助翻譯功能,在提高翻譯效率的同時,讓字幕翻譯更加個性化。這款工具營造了更良好的雙語字幕制作環(huán)境,大大降低了雙語字幕的制作成本,幫助用戶輕松解決視頻內(nèi)容的跨語言傳播問題。

火山翻譯Studio,自動生成雙語字幕,支持交互式翻譯和術語干預等多種功能
直播與會議翻譯:火山同傳
2020年10月,火山翻譯團隊發(fā)布了智能同傳產(chǎn)品——火山同傳,致力于為線下會議、線上直播提供實時機器同傳服務。一年來,火山同傳先后服務和參與了飛書未來無限大會、知名藝術家村上隆首場中國直播、第四屆CTDC首席技術官領袖峰會等多場直播與大會。
為確保實時翻譯的準確性和實時字幕的最佳展示效果,火山同傳提供「全屏逐字式字幕顯示方案」和「影院級字幕重保方案」,滿足不同場景的需求。產(chǎn)品包含55種語言翻譯及中英日三語聽寫識別等高性能服務能力,借助人工保障方案,實時校準,保證字幕精準性和流暢性。獨家提供的「VFT領域自適應服務」,讓翻譯算法的翻譯風格更加貼合會議在語體等方面的需求,為直播字幕展示效果提供了更優(yōu)路徑。

知名日本藝術家村上隆首場中國直播,火山同傳提供智能同傳字幕
精準翻譯的在線平臺:火山翻譯網(wǎng)頁版
11月,火山翻譯網(wǎng)頁版(translate.volcengine.cn)正式上線,并發(fā)布了中英雙語版本,集成了PC端和WAP端的在線翻譯工具與其他相關產(chǎn)品的介紹頁面。
火山翻譯在線翻譯平臺支持55個語種全語向互譯,單次可翻譯高達2000字符。網(wǎng)頁提供「語種全自動檢測」、「譯文一鍵復制」、「雙語對照查看」等功能,用戶可以高效獲取跨語言翻譯服務。
產(chǎn)品介紹頁則系統(tǒng)展示了「機器翻譯API」、「視頻字幕翻譯」、「智能同傳」等火山翻譯旗下的優(yōu)質(zhì)產(chǎn)品,此外還提供了「網(wǎng)頁翻譯-瀏覽器插件」等應用的體驗入口?;鹕椒g面向B端客戶的相關服務能力也已集成在火山引擎智能應用板塊當中,為更多客戶提供企業(yè)級的技術產(chǎn)品與解決方案。

火山翻譯官網(wǎng)在線翻譯頁,支持55個語種全語向互譯
翻越“三座大山”,打造多語種、大量級服務的技術能力
強大的翻譯應用背后離不開火山翻譯團隊的算法科學家、工程師團隊歷時數(shù)年的努力。在完整服務日均過億次調(diào)用的基礎上,團隊追求支持更多語向、提供更好的翻譯服務。
語種擴展,支持55門語言互譯
這一年,火山翻譯在翻譯語種擴展上持續(xù)發(fā)力,從最初的幾門語言,到現(xiàn)今支持55個語種、2970個語向之間的互譯。其中包括馬其頓語、斯洛文尼亞語、烏爾都語、旁遮普語等小語種。

在訓練機器翻譯模型的過程中,火山翻譯團隊成功翻越了“三座大山”:
1. 涉足冷門的翻譯領域
某些翻譯領域的鮮見性加劇了模型訓練的難度,尤其是「泛娛樂場景」這樣具有高度不規(guī)范性和娛樂性的翻譯領域。對此,火山翻譯綜合運用「NMT領域適應、領域數(shù)據(jù)增強、大模型學習、多領域模型」等更多領域的方法,結合各領域的特點進行優(yōu)化,攻克了領域冷門問題帶來的算法優(yōu)化障礙。
2. 部分語種平行數(shù)據(jù)匱乏
「語種數(shù)量多、小語種的平行語料匱乏」一直是訓練機器翻譯模型工作中的痛點。在平行數(shù)據(jù)稀缺的情景下,火山翻譯的工程師們使用基于「自研Fluid平臺」的半監(jiān)督訓練體系,開展多語言的預訓練工作,成功構建出了「多語言」翻譯模型,攻克了平行數(shù)據(jù)缺乏而造成的模型效果不佳、翻譯性能不達標等技術難題。

基于Fluid平臺的半監(jiān)督訓練

層次化建模
3. 服務量級大
“業(yè)務的奔跑中資源永遠是不夠的”。在算法的訓練和優(yōu)化進程中,由于GPU資源的緊缺,待訓練的語種數(shù)量卻很龐大,火山翻譯團隊亟待提升GPU的利用率來應對棘手的挑戰(zhàn)。對此,團隊使用了「多語言翻譯模型」來整合資源,同時進行多個長尾語種的訓練,將資源利用率大大提升,成功滿足大量級服務的需求。
專業(yè)評測,火山翻譯獲國際比賽冠軍
不斷打破語種表現(xiàn)的天花板,持續(xù)迭代提升各語向翻譯質(zhì)量,火山翻譯在國際舞臺上表現(xiàn)出不俗的競爭力。
在2020年國際機器翻譯大賽(WMT20)上,火山翻譯團隊在39支參賽隊伍中殺出重圍,以顯著優(yōu)勢在「中文-英語」的關鍵語向翻譯項目競賽上拿下了世界冠軍。此外,火山翻譯還拿下了「德語-英語」、「德語-法語」、「英語-高棉語」和「英語-普什圖語」語向機器翻譯項目的冠軍,更斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。
歷年比賽中,「中文-英語」語向的翻譯任務都是參賽隊伍最多、競爭最為激烈的機器翻譯任務之一?;鹕椒g作為一只年輕的團隊,參加了「非受限場景」的比賽——即在給定測試集的情況下,允許使用任何數(shù)據(jù)和方法探索翻譯效果極限的比賽方式。同時,組織方也引入了四個權威的在線機器翻譯商業(yè)系統(tǒng)(Online-A、G、Z、B)作為對比。這種比賽模式被認為是“最能體現(xiàn)翻譯團隊數(shù)據(jù)和算法綜合能力”的場景。經(jīng)過比賽組委會邀請的語言專家的系統(tǒng)評估,火山翻譯以明顯的優(yōu)勢奪得了該項冠軍。

WMT20 中英翻譯前幾名系統(tǒng)得分,火山翻譯排名第一。Ave.z代表人工評估標準化分數(shù),也是目前機器翻譯最受認可的指標。
相比「中文-英語」語向,「德語-英語」語向則是WMT比賽上的傳統(tǒng)項目之一,也是最受歐洲國家的代表隊們關注的競賽語向。在「德語-英語」比賽最后的人工評價環(huán)節(jié)中,火山翻譯依然表現(xiàn)出杰出的技術水準,拿下第一名的成績。最終,國際機器翻譯大賽的組委會對于團隊給出了很高的評價,“作為新的參與者,火山翻譯表現(xiàn)尤為出色(particularly well),超越了很多傳統(tǒng)隊伍”。
下圖為火山翻譯和谷歌翻譯在各語向測試集上的表現(xiàn)對比信息,橫軸為語向信息,縱軸展示了BLEU值的差值。從圖中的數(shù)據(jù)可見,在左側棕色區(qū)域表示的多數(shù)語向上,火山翻譯模型的自動評估結果均高于谷歌。其中「日語-中文」、「印尼語-英語」、「中文-日語」三個語向更是比谷歌翻譯高出了10個BLEU值以上。(注:BLEU全稱Bilingual Evaluation Understudy,是最廣泛使用的機器翻譯自動評價指標)

火山翻譯和谷歌翻譯在各語向測試集上的表現(xiàn)對比
在和英語進行互譯的語向中,火山翻譯有72%的機器自動評價結果優(yōu)于谷歌翻譯?;鹕椒g也正持續(xù)追求在更多語向上獲得優(yōu)質(zhì)表現(xiàn),爭取為全球更廣泛的用戶群體提供令人滿意的翻譯服務。
在2020年最后三天,火山翻譯日均翻譯的字符數(shù)達到百億規(guī)模,翻譯調(diào)用量達日均1.38億次,穩(wěn)定服務包括飛書、今日頭條在內(nèi)的數(shù)十個業(yè)務?;鹕椒g可通過公有云、私有化部署等多種形式接入,支持垂直行業(yè)模型快速定制和部署,滿足各垂直行業(yè)的個性化翻譯需求。
新技術將帶來更激動人心的翻譯體驗
對翻譯產(chǎn)品和服務來說,無論是模型還是推理能力,都需要持續(xù)的創(chuàng)新和投入。在2020年度盤點中,火山翻譯團隊披露了正在持續(xù)探索和實踐的翻譯技術:
創(chuàng)造多語言預訓練的新范式mRASP
多語言翻譯新范式mRASP(multilingual Random Aligned Substitution Pre-training)建立的核心思想是打造「機器翻譯界的BERT模型」,即通過預訓練技術進行規(guī)?;柧?,再在具體語種上進行精細微調(diào),即可達到領先的翻譯效果。其在32個語對上預訓練出的統(tǒng)一模型,在至少47個翻譯測試集上均取得了全面的顯著提升。在火山翻譯中,該技術已被廣泛使用,得到了業(yè)務上的實踐檢驗。
以BERT為代表的預訓練范式幾乎橫掃了所有的文本理解任務,成為各種NLP任務的基石。mRASP不同于以往的機器翻譯范式,樹立了機器翻譯的預訓練和微調(diào)的成功路徑。
mRASP主要針對機器翻譯的任務場景設計,具有三大應用優(yōu)勢:
1. 打破了資源場景的限制
不論平行雙語資源高低,均能有提升。對于資源豐富的語言,比如標準英法翻譯任務,在已經(jīng)有4000萬平行語句訓練情況下,使用mRASP依然能顯著提升,達到了44.3的BLEU值。在低資源語言上,mRASP的表現(xiàn)令人驚喜,極端情況下,只需要一萬句訓練數(shù)據(jù),通過10分鐘微調(diào)訓練,就能得到一個還不錯的翻譯系統(tǒng)。
2. 打破了語種數(shù)量的限制
任何語言的翻譯,無論是孟加拉語到古吉拉特語,還是印地語到菲利賓語,只要是地球上的語言,都可以用mRASP直接進行微調(diào),并且效果可期。
3. 資源消耗低
相比于其它上百張卡的「軍備競賽」預訓練玩法,mRASP更平民,僅需要8張卡訓練一周就可以完成。簡單來說,mRASP可以理解為機器翻譯領域的輕量級BERT,只要是機器翻譯任務,對于任何場景或者語言,使用mRASP都可能會有意想不到的收獲。

mRASP基于Transformer框架,利用多個語對的平行語料建立預訓練模型
高性能序列推理引擎LightSeq
LightSeq是一款極速且同時支持多特性的高性能序列推理引擎,它對以Transformer為基礎的序列特征提取器(Encoder)和自回歸的序列解碼器(Decoder)做了深度優(yōu)化,早在2019年12月就已經(jīng)開源,應用在了包括火山翻譯在內(nèi)的眾多業(yè)務和場景。據(jù)了解,這應該是業(yè)界第一款完整支持Transformer、GPT等多種模型高速推理的開源引擎。
LightSeq可以應用于機器翻譯、自動問答、智能寫作、對話回復生成等眾多文本生成場景,大大提高線上模型推理速度,改善用戶的使用體驗,降低企業(yè)的運營服務成本。
相比于目前其他開源序列推理引擎,LightSeq具有如下幾點優(yōu)勢:
1. 高性能
LightSeq推理速度非???。以翻譯任務為例,LightSeq相比于TensorFlow實現(xiàn)最多可以達到14倍加速。同時領先目前其他開源序列推理引擎,例如最多可比Faster Transformer快1.4倍。
2. 支持模型功能多
LightSeq支持BERT、GPT、Transformer、VAE等眾多模型,同時支持beam search、diverse beam search、sampling等多種解碼方式。
3. 簡單易用,無縫銜接TensorFlow、PyTorch等深度學習框架
LightSeq通過定義模型協(xié)議,支持靈活導入各種深度學習框架訓練完的模型。同時包含了開箱即用的端到端模型服務,即在不需要寫一行代碼的情況下部署高速模型推理,并靈活支持多層次復用。

Transformer解碼示意圖
鏡像生成式翻譯模型MGNMT
鏡像翻譯生成模型MGNMT(Mirror-Generative Neural Machine Translation)旨在解決機器翻譯在雙語平行數(shù)據(jù)缺乏場景中的應用問題,目前已應用到火山翻譯多個語向的翻譯模型中。通過鏡像生成方式,MGNMT利用互為鏡像翻譯方向的相關性,同時將翻譯模型和語言模型結合,讓模型間互相促進,從而顯著提升翻譯質(zhì)量。
目前機器翻譯模型需要在大量的雙語平行數(shù)據(jù)上訓練,從而得到不錯的性能。然而,在很多低資源的語向或領域場景中,雙語平行數(shù)據(jù)是非常稀缺的。這種情況下,雙語平行數(shù)據(jù)非常珍貴,需要更高效地利用;并且由于雙語數(shù)據(jù)稀缺,充分利用大規(guī)模非平行單語數(shù)據(jù)也十分重要。
為了最大化對雙語數(shù)據(jù)和單語數(shù)據(jù)的有效利用,MGNMT采用了以下幾種關鍵技術:
1. 通過一個共享的隱變量,將兩個翻譯方向的翻譯模型和兩個語言的語言模型結合在同一個概率模型中。
2. 訓練時,兩個翻譯方向相互促進。通過隱變量建模了互為譯文的雙語數(shù)據(jù)的語義等價性,讓兩個翻譯方向的模型可以更好地利用雙語平行數(shù)據(jù);同時,通過隱變量作為中間橋梁,任意一方的單語數(shù)據(jù)都可以同時幫助到兩個翻譯方向的模型,從而也更好地利用了單語數(shù)據(jù)。
3. 解碼時,語言模型和翻譯模型相互協(xié)作。正向翻譯模型和目標語言模型首先用beam search進行協(xié)同解碼,得到多個候選譯文;隨后反向翻譯模型和源語言語言模型對候選譯文進行排序,選擇出最忠實于原文語義的最佳譯文。
在低資源的情況下,MGNMT在多個數(shù)據(jù)上都得到了最好的翻譯結果。相較于傳統(tǒng)的Transformer模型,以及Transformer結合回翻譯(Back-Translation)進行數(shù)據(jù)增強以利用單語數(shù)據(jù)的方式,其結果都顯示了比較一致的、顯著的提升。

MGNMT模型示意圖。MGNMT同時建模了兩個翻譯方向的翻譯模型和兩個語言模型。
結語
“我們和你一樣,一步一踉蹌,卻堅定不移。我們和你一樣,經(jīng)歷波折,卻滿懷希望”。在《請翻譯2020》年度盤點中,火山翻譯團隊表示,為了呈現(xiàn)更佳的翻譯效果,創(chuàng)造更好的跨語言體驗,火山翻譯孜孜不倦地為不同的語言提供最優(yōu)解法,為了“讓世界更小,讓不同的文化更近”。
特別提醒:本網(wǎng)內(nèi)容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內(nèi)容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。