火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

日前火山翻譯團(tuán)隊(duì)發(fā)布《請翻譯2020》年度盤點(diǎn),詳解過去一年上線的火山翻譯Studio、火山同傳等新品,以及在訓(xùn)練機(jī)器翻譯模型過程中遭遇的技術(shù)難點(diǎn)和解決方案。2020年最后三天,火山翻譯的調(diào)用量達(dá)日均1.38億次,日均翻譯的字符數(shù)超百億規(guī)模。如果把火山翻譯每天翻譯的字符打印在A4紙上,堆起來的紙張相當(dāng)于1.3個東方明珠的高度。

在2020年國際機(jī)器翻譯大賽(WMT20)上斬獲冠軍后,火山翻譯團(tuán)隊(duì)正投入在mRASP 、LightSeq和MGNMT等創(chuàng)新技術(shù)上。新技術(shù)的實(shí)踐將創(chuàng)造更激動人心的體驗(yàn),或許在2021年,火山翻譯會帶來更多驚喜。

火山翻譯爆發(fā)年:2020新品涌現(xiàn)

在火山翻譯團(tuán)隊(duì)多年的技術(shù)積累、產(chǎn)品設(shè)計(jì)和方案支持下,火山翻譯提供了火山同傳、火山翻譯API、火山翻譯Studio、瀏覽器翻譯插件等一系列矩陣產(chǎn)品。

視頻翻譯工具:火山翻譯Studio

2020年3月,火山翻譯團(tuán)隊(duì)開發(fā)的新型AI視頻翻譯工具——火山翻譯Studio V0.1版本上線,并面向用戶進(jìn)入內(nèi)測階段。

借助先進(jìn)的自動語音識別和神經(jīng)機(jī)器翻譯技術(shù),火山翻譯Studio為視頻創(chuàng)作者們提供專業(yè)高效的視頻「轉(zhuǎn)寫-打軸-翻譯」全流程服務(wù),將視頻譯制流程中,三件復(fù)雜的工作「一站式」完成。產(chǎn)品支持交互式翻譯和術(shù)語干預(yù)等多種輔助翻譯功能,在提高翻譯效率的同時,讓字幕翻譯更加個性化。這款工具營造了更良好的雙語字幕制作環(huán)境,大大降低了雙語字幕的制作成本,幫助用戶輕松解決視頻內(nèi)容的跨語言傳播問題。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

火山翻譯Studio,自動生成雙語字幕,支持交互式翻譯和術(shù)語干預(yù)等多種功能

直播與會議翻譯:火山同傳

2020年10月,火山翻譯團(tuán)隊(duì)發(fā)布了智能同傳產(chǎn)品——火山同傳,致力于為線下會議、線上直播提供實(shí)時機(jī)器同傳服務(wù)。一年來,火山同傳先后服務(wù)和參與了飛書未來無限大會、知名藝術(shù)家村上隆首場中國直播、第四屆CTDC首席技術(shù)官領(lǐng)袖峰會等多場直播與大會。

為確保實(shí)時翻譯的準(zhǔn)確性和實(shí)時字幕的最佳展示效果,火山同傳提供「全屏逐字式字幕顯示方案」和「影院級字幕重保方案」,滿足不同場景的需求。產(chǎn)品包含55種語言翻譯及中英日三語聽寫識別等高性能服務(wù)能力,借助人工保障方案,實(shí)時校準(zhǔn),保證字幕精準(zhǔn)性和流暢性。獨(dú)家提供的「VFT領(lǐng)域自適應(yīng)服務(wù)」,讓翻譯算法的翻譯風(fēng)格更加貼合會議在語體等方面的需求,為直播字幕展示效果提供了更優(yōu)路徑。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

知名日本藝術(shù)家村上隆首場中國直播,火山同傳提供智能同傳字幕

精準(zhǔn)翻譯的在線平臺:火山翻譯網(wǎng)頁版

11月,火山翻譯網(wǎng)頁版正式上線,并發(fā)布了中英雙語版本,集成了PC端和WAP端的在線翻譯工具與其他相關(guān)產(chǎn)品的介紹頁面。

火山翻譯在線翻譯平臺支持55個語種全語向互譯,單次可翻譯高達(dá)2000字符。網(wǎng)頁提供「語種全自動檢測」、「譯文一鍵復(fù)制」、「雙語對照查看」等功能,用戶可以高效獲取跨語言翻譯服務(wù)。

產(chǎn)品介紹頁則系統(tǒng)展示了「機(jī)器翻譯API」、「視頻字幕翻譯」、「智能同傳」等火山翻譯旗下的優(yōu)質(zhì)產(chǎn)品,此外還提供了「網(wǎng)頁翻譯-瀏覽器插件」等應(yīng)用的體驗(yàn)入口。火山翻譯面向B端客戶的相關(guān)服務(wù)能力也已集成在火山引擎智能應(yīng)用板塊當(dāng)中,為更多客戶提供企業(yè)級的技術(shù)產(chǎn)品與解決方案。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

火山翻譯官網(wǎng)在線翻譯頁,支持55個語種全語向互譯

翻越“三座大山”,打造多語種、大量級服務(wù)的技術(shù)能力

強(qiáng)大的翻譯應(yīng)用背后離不開火山翻譯團(tuán)隊(duì)的算法科學(xué)家、工程師團(tuán)隊(duì)歷時數(shù)年的努力。在完整服務(wù)日均過億次調(diào)用的基礎(chǔ)上,團(tuán)隊(duì)追求支持更多語向、提供更好的翻譯服務(wù)。

語種擴(kuò)展,支持55門語言互譯

這一年,火山翻譯在翻譯語種擴(kuò)展上持續(xù)發(fā)力,從最初的幾門語言,到現(xiàn)今支持55個語種、2970個語向之間的互譯。其中包括馬其頓語、斯洛文尼亞語、烏爾都語、旁遮普語等小語種。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

在訓(xùn)練機(jī)器翻譯模型的過程中,火山翻譯團(tuán)隊(duì)成功翻越了“三座大山”:

1. 涉足冷門的翻譯領(lǐng)域

某些翻譯領(lǐng)域的鮮見性加劇了模型訓(xùn)練的難度,尤其是「泛娛樂場景」這樣具有高度不規(guī)范性和娛樂性的翻譯領(lǐng)域。對此,火山翻譯綜合運(yùn)用「NMT領(lǐng)域適應(yīng)、領(lǐng)域數(shù)據(jù)增強(qiáng)、大模型學(xué)習(xí)、多領(lǐng)域模型」等更多領(lǐng)域的方法,結(jié)合各領(lǐng)域的特點(diǎn)進(jìn)行優(yōu)化,攻克了領(lǐng)域冷門問題帶來的算法優(yōu)化障礙。

2. 部分語種平行數(shù)據(jù)匱乏

「語種數(shù)量多、小語種的平行語料匱乏」一直是訓(xùn)練機(jī)器翻譯模型工作中的痛點(diǎn)。在平行數(shù)據(jù)稀缺的情景下,火山翻譯的工程師們使用基于「自研Fluid平臺」的半監(jiān)督訓(xùn)練體系,開展多語言的預(yù)訓(xùn)練工作,成功構(gòu)建出了「多語言」翻譯模型,攻克了平行數(shù)據(jù)缺乏而造成的模型效果不佳、翻譯性能不達(dá)標(biāo)等技術(shù)難題。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

基于Fluid平臺的半監(jiān)督訓(xùn)練

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

層次化建模

3. 服務(wù)量級大

“業(yè)務(wù)的奔跑中資源永遠(yuǎn)是不夠的”。在算法的訓(xùn)練和優(yōu)化進(jìn)程中,由于GPU資源的緊缺,待訓(xùn)練的語種數(shù)量卻很龐大,火山翻譯團(tuán)隊(duì)亟待提升GPU的利用率來應(yīng)對棘手的挑戰(zhàn)。對此,團(tuán)隊(duì)使用了「多語言翻譯模型」來整合資源,同時進(jìn)行多個長尾語種的訓(xùn)練,將資源利用率大大提升,成功滿足大量級服務(wù)的需求。

專業(yè)評測,火山翻譯獲國際比賽冠軍

不斷打破語種表現(xiàn)的天花板,持續(xù)迭代提升各語向翻譯質(zhì)量,火山翻譯在國際舞臺上表現(xiàn)出不俗的競爭力。

在2020年國際機(jī)器翻譯大賽(WMT20)上,火山翻譯團(tuán)隊(duì)在39支參賽隊(duì)伍中殺出重圍,以顯著優(yōu)勢在「中文-英語」的關(guān)鍵語向翻譯項(xiàng)目競賽上拿下了世界冠軍。此外,火山翻譯還拿下了「德語-英語」、「德語-法語」「英語-高棉語」「英語-普什圖語」語向機(jī)器翻譯項(xiàng)目的冠軍,更斬獲了平行語料過濾對齊項(xiàng)目普什圖語高棉語的兩項(xiàng)第一。

歷年比賽中,「中文-英語」語向的翻譯任務(wù)都是參賽隊(duì)伍最多、競爭最為激烈的機(jī)器翻譯任務(wù)之一?;鹕椒g作為一只年輕的團(tuán)隊(duì),參加了「非受限場景」的比賽——即在給定測試集的情況下,允許使用任何數(shù)據(jù)和方法探索翻譯效果極限的比賽方式。同時,組織方也引入了四個權(quán)威的在線機(jī)器翻譯商業(yè)系統(tǒng)(Online-A、G、Z、B)作為對比。這種比賽模式被認(rèn)為是“最能體現(xiàn)翻譯團(tuán)隊(duì)數(shù)據(jù)和算法綜合能力”的場景。經(jīng)過比賽組委會邀請的語言專家的系統(tǒng)評估,火山翻譯以明顯的優(yōu)勢奪得了該項(xiàng)冠軍

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

WMT20 中英翻譯前幾名系統(tǒng)得分,火山翻譯排名第一。Ave.z代表人工評估標(biāo)準(zhǔn)化分?jǐn)?shù),也是目前機(jī)器翻譯最受認(rèn)可的指標(biāo)。

相比「中文-英語」語向,「德語-英語」語向則是WMT比賽上的傳統(tǒng)項(xiàng)目之一,也是最受歐洲國家的代表隊(duì)們關(guān)注的競賽語向。在「德語-英語」比賽最后的人工評價環(huán)節(jié)中,火山翻譯依然表現(xiàn)出杰出的技術(shù)水準(zhǔn),拿下第一名的成績。最終,國際機(jī)器翻譯大賽的組委會對于團(tuán)隊(duì)給出了很高的評價,“作為新的參與者,火山翻譯表現(xiàn)尤為出色(particularly well),超越了很多傳統(tǒng)隊(duì)伍”。

下圖為火山翻譯和谷歌翻譯在各語向測試集上的表現(xiàn)對比信息,橫軸為語向信息,縱軸展示了BLEU值的差值。從圖中的數(shù)據(jù)可見,在左側(cè)棕色區(qū)域表示的多數(shù)語向上,火山翻譯模型的自動評估結(jié)果均高于谷歌。其中「日語-中文」、「印尼語-英語」、「中文-日語」三個語向更是比谷歌翻譯高出了10個BLEU值以上。(注:BLEU全稱Bilingual Evaluation Understudy,是最廣泛使用的機(jī)器翻譯自動評價指標(biāo))

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

火山翻譯和谷歌翻譯在各語向測試集上的表現(xiàn)對比

在和英語進(jìn)行互譯的語向中,火山翻譯有72%的機(jī)器自動評價結(jié)果優(yōu)于谷歌翻譯?;鹕椒g也正持續(xù)追求在更多語向上獲得優(yōu)質(zhì)表現(xiàn),爭取為全球更廣泛的用戶群體提供令人滿意的翻譯服務(wù)。

在2020年最后三天,火山翻譯日均翻譯的字符數(shù)達(dá)到百億規(guī)模,翻譯調(diào)用量達(dá)日均1.38億次,穩(wěn)定服務(wù)包括飛書今日頭條在內(nèi)的數(shù)十個業(yè)務(wù)?;鹕椒g可通過公有云、私有化部署等多種形式接入,支持垂直行業(yè)模型快速定制和部署,滿足各垂直行業(yè)的個性化翻譯需求。

新技術(shù)將帶來更激動人心的翻譯體驗(yàn)

對翻譯產(chǎn)品和服務(wù)來說,無論是模型還是推理能力,都需要持續(xù)的創(chuàng)新和投入。在2020年度盤點(diǎn)中,火山翻譯團(tuán)隊(duì)披露了正在持續(xù)探索和實(shí)踐的翻譯技術(shù):

創(chuàng)造多語言預(yù)訓(xùn)練的新范式mRASP

多語言翻譯新范式mRASP(multilingual Random Aligned Substitution Pre-training)建立的核心思想是打造「機(jī)器翻譯界的BERT模型」,即通過預(yù)訓(xùn)練技術(shù)進(jìn)行規(guī)模化訓(xùn)練,再在具體語種上進(jìn)行精細(xì)微調(diào),即可達(dá)到領(lǐng)先的翻譯效果。其在32個語對上預(yù)訓(xùn)練出的統(tǒng)一模型,在至少47個翻譯測試集上均取得了全面的顯著提升。在火山翻譯中,該技術(shù)已被廣泛使用,得到了業(yè)務(wù)上的實(shí)踐檢驗(yàn)。

以BERT為代表的預(yù)訓(xùn)練范式幾乎橫掃了所有的文本理解任務(wù),成為各種NLP任務(wù)的基石。mRASP不同于以往的機(jī)器翻譯范式,樹立了機(jī)器翻譯的預(yù)訓(xùn)練和微調(diào)的成功路徑。

mRASP主要針對機(jī)器翻譯的任務(wù)場景設(shè)計(jì),具有三大應(yīng)用優(yōu)勢:

1. 打破了資源場景的限制

不論平行雙語資源高低,均能有提升。對于資源豐富的語言,比如標(biāo)準(zhǔn)英法翻譯任務(wù),在已經(jīng)有4000萬平行語句訓(xùn)練情況下,使用mRASP依然能顯著提升,達(dá)到了44.3的BLEU值。在低資源語言上,mRASP的表現(xiàn)令人驚喜,極端情況下,只需要一萬句訓(xùn)練數(shù)據(jù),通過10分鐘微調(diào)訓(xùn)練,就能得到一個還不錯的翻譯系統(tǒng)。

2. 打破了語種數(shù)量的限制

任何語言的翻譯,無論是孟加拉語到古吉拉特語,還是印地語到菲利賓語,只要是地球上的語言,都可以用mRASP直接進(jìn)行微調(diào),并且效果可期。

3. 資源消耗低

相比于其它上百張卡的「軍備競賽」預(yù)訓(xùn)練玩法,mRASP更平民,僅需要8張卡訓(xùn)練一周就可以完成。簡單來說,mRASP可以理解為機(jī)器翻譯領(lǐng)域的輕量級BERT,只要是機(jī)器翻譯任務(wù),對于任何場景或者語言,使用mRASP都可能會有意想不到的收獲。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

mRASP基于Transformer框架,利用多個語對的平行語料建立預(yù)訓(xùn)練模型

高性能序列推理引擎LightSeq

LightSeq是一款極速且同時支持多特性的高性能序列推理引擎,它對以Transformer為基礎(chǔ)的序列特征提取器(Encoder)和自回歸的序列解碼器(Decoder)做了深度優(yōu)化,早在2019年12月就已經(jīng)開源,應(yīng)用在了包括火山翻譯在內(nèi)的眾多業(yè)務(wù)和場景。據(jù)了解,這應(yīng)該是業(yè)界第一款完整支持Transformer、GPT等多種模型高速推理的開源引擎。

LightSeq可以應(yīng)用于機(jī)器翻譯、自動問答、智能寫作、對話回復(fù)生成等眾多文本生成場景,大大提高線上模型推理速度,改善用戶的使用體驗(yàn),降低企業(yè)的運(yùn)營服務(wù)成本。

相比于目前其他開源序列推理引擎,LightSeq具有如下幾點(diǎn)優(yōu)勢:

1. 高性能

LightSeq推理速度非??臁R苑g任務(wù)為例,LightSeq相比于TensorFlow實(shí)現(xiàn)最多可以達(dá)到14倍加速。同時領(lǐng)先目前其他開源序列推理引擎,例如最多可比Faster Transformer快1.4倍。

2. 支持模型功能多

LightSeq支持BERT、GPT、Transformer、VAE等眾多模型,同時支持beam search、diverse beam search、sampling等多種解碼方式。

3. 簡單易用,無縫銜接TensorFlow、PyTorch等深度學(xué)習(xí)框架

LightSeq通過定義模型協(xié)議,支持靈活導(dǎo)入各種深度學(xué)習(xí)框架訓(xùn)練完的模型。同時包含了開箱即用的端到端模型服務(wù),即在不需要寫一行代碼的情況下部署高速模型推理,并靈活支持多層次復(fù)用。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

Transformer解碼示意圖

鏡像生成式翻譯模型MGNMT

鏡像翻譯生成模型MGNMT(Mirror-Generative Neural Machine Translation)旨在解決機(jī)器翻譯在雙語平行數(shù)據(jù)缺乏場景中的應(yīng)用問題,目前已應(yīng)用到火山翻譯多個語向的翻譯模型中。通過鏡像生成方式,MGNMT利用互為鏡像翻譯方向的相關(guān)性,同時將翻譯模型和語言模型結(jié)合,讓模型間互相促進(jìn),從而顯著提升翻譯質(zhì)量。

目前機(jī)器翻譯模型需要在大量的雙語平行數(shù)據(jù)上訓(xùn)練,從而得到不錯的性能。然而,在很多低資源的語向或領(lǐng)域場景中,雙語平行數(shù)據(jù)是非常稀缺的。這種情況下,雙語平行數(shù)據(jù)非常珍貴,需要更高效地利用;并且由于雙語數(shù)據(jù)稀缺,充分利用大規(guī)模非平行單語數(shù)據(jù)也十分重要。

為了最大化對雙語數(shù)據(jù)和單語數(shù)據(jù)的有效利用,MGNMT采用了以下幾種關(guān)鍵技術(shù):

1. 通過一個共享的隱變量,將兩個翻譯方向的翻譯模型和兩個語言的語言模型結(jié)合在同一個概率模型中。

2. 訓(xùn)練時,兩個翻譯方向相互促進(jìn)。通過隱變量建模了互為譯文的雙語數(shù)據(jù)的語義等價性,讓兩個翻譯方向的模型可以更好地利用雙語平行數(shù)據(jù);同時,通過隱變量作為中間橋梁,任意一方的單語數(shù)據(jù)都可以同時幫助到兩個翻譯方向的模型,從而也更好地利用了單語數(shù)據(jù)。

3. 解碼時,語言模型和翻譯模型相互協(xié)作。正向翻譯模型和目標(biāo)語言模型首先用beam search進(jìn)行協(xié)同解碼,得到多個候選譯文;隨后反向翻譯模型和源語言語言模型對候選譯文進(jìn)行排序,選擇出最忠實(shí)于原文語義的最佳譯文。

在低資源的情況下,MGNMT在多個數(shù)據(jù)上都得到了最好的翻譯結(jié)果。相較于傳統(tǒng)的Transformer模型,以及Transformer結(jié)合回翻譯(Back-Translation)進(jìn)行數(shù)據(jù)增強(qiáng)以利用單語數(shù)據(jù)的方式,其結(jié)果都顯示了比較一致的、顯著的提升。

火山翻譯年度盤點(diǎn):年底每天“干活”1.38億次

MGNMT模型示意圖。MGNMT同時建模了兩個翻譯方向的翻譯模型和兩個語言模型。

結(jié)語

“我們和你一樣,一步一踉蹌,卻堅(jiān)定不移。我們和你一樣,經(jīng)歷波折,卻滿懷希望”。在《請翻譯2020》年度盤點(diǎn)中,火山翻譯團(tuán)隊(duì)表示,為了呈現(xiàn)更佳的翻譯效果,創(chuàng)造更好的跨語言體驗(yàn),火山翻譯孜孜不倦地為不同的語言提供最優(yōu)解法,為了“讓世界更小,讓不同的文化更近”。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )