技術解讀:火山翻譯是如何解決數(shù)字翻譯痛點的

近期,國外一份調(diào)查報告誤將392萬和83萬的采購費用翻譯為39.2億和830萬,鬧出國際笑話。有分析認為,此烏龍事件是國外機器翻譯軟件造成的。

讓很多人意想不到的是,看似簡單的數(shù)字,在機器翻譯中向來是一大痛點。就以「392.687694萬元(人民幣)」為例,我們測試不同翻譯軟件的翻譯結果。

數(shù)字翻譯「中譯英」測試

首先測試「中譯英」,國內(nèi)外9款主流翻譯軟件中,只有火山翻譯和騰訊翻譯君準確地翻譯出了392萬。其余7款產(chǎn)品,有翻譯成392的,有翻譯成39.2億的(與“烏龍”報告結果一致),甚至還有翻譯成392萬億的,比正確結果擴大一億倍,另外4款都翻譯成了3.92億。測試結果如下列組圖所示。

火山翻譯:

騰訊翻譯君:

以下為其他7款翻譯產(chǎn)品的測試結果。

翻譯為39.2億(與國外報告翻譯結果一致):

翻譯為392:

翻譯為392萬億:

翻譯為3.92億:

數(shù)字翻譯「英譯中」測試

我們用不同軟件把英文「3.92687694 million yuan (RMB)」 翻譯回中文,會是怎么樣的結果?

這次只有火山翻譯準確翻譯出了392萬元人民幣。其他8款產(chǎn)品,有翻成3.92萬的,有翻成39.2億的,也有翻成392萬億的,另外5家都翻成了3.92萬億。測試結果見下列組圖。

火山翻譯:

其他產(chǎn)品的翻譯結果:

數(shù)字的重要性毋庸多言,在商業(yè)條款中如果翻譯錯一個數(shù)字,可能會帶來成千上萬的損失;建筑圖紙中一個數(shù)字翻譯的疏漏,就可能導致一項龐大建筑工程轟然倒塌。想要保證數(shù)字翻譯的準確度,遠不是謄寫一串阿拉伯數(shù)字再翻譯單位這么簡單。從上面測試中也可以看到,一些國際巨頭的翻譯產(chǎn)品,在數(shù)字翻譯中照樣會出現(xiàn)偏差萬倍甚至上億倍的錯誤。

數(shù)字翻譯難在哪?

數(shù)字翻譯對翻譯者關于目標語言數(shù)字表達的理解要求較高,在中英翻譯中,數(shù)字翻譯的難點主要在以下方面:

a.中英語言中不同的數(shù)字單位,如1000萬翻譯成10 million,不能簡單地「拷貝」

b.很長的數(shù)字容易帶來偏差

c.超大數(shù)字的翻譯問題,如trillion、萬億以上的單位

d.中英語言中不同的計量單位,如中文中的“斤”,容易被翻譯成“kg”

e.帶有貨幣符號的數(shù)字容易犯錯

當前,很多翻譯軟件對數(shù)字沒有做額外的處理,采用的是與普通文字相同的sequence-to-sequence神經(jīng)機器翻譯模型。這一模型翻譯質量較高,流暢性較好,但存在一個顯著的缺陷, 就是缺乏常識和推理能力,無法理解對于人類來說比較簡單的規(guī)則,例如,“萬”和“million”的的轉換、單位貨幣之間的不同等。

火山翻譯如何解決數(shù)字翻譯難題?

我們從火山翻譯技術分享中了解到,火山翻譯的翻譯模型見到對應的數(shù)字之后,會將其抽取出來,通過推理、計算等智能過程,對數(shù)字進行跨語言的語義轉換,然后將其置于翻譯句子適當?shù)奈恢弥校愃迫祟惖姆g推理過程。

火山翻譯是字節(jié)跳動旗下火山引擎的AI中臺能力之一,技術能力已經(jīng)在飛書的文檔、消息翻譯和火山引擎的企業(yè)級客戶中廣泛應用。由于當前機器翻譯場景中存在大量的數(shù)字內(nèi)容,數(shù)字翻譯也一直是火山翻譯團隊持續(xù)優(yōu)化的重要方向。目前, 火山翻譯已經(jīng)支持56門語言、3080個語向的翻譯。


(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )