一年半前,谷歌首先宣稱其新的神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)可以產(chǎn)生與人類輸出“幾乎不可區(qū)分”的翻譯。

游戲本地化翻譯的關(guān)鍵

 

  但是,盡管谷歌的“幾乎不可區(qū)分”主張深深地埋在了論文的技術(shù)討論的第18頁,并且經(jīng)過了小心避免,但微軟在一篇新的研究論文的標(biāo)題中發(fā)表了槍聲,說他們?cè)谥形暮陀⑽姆g之間實(shí)現(xiàn)了“人對(duì)等” 。

  根據(jù)微軟于2018年3月14日發(fā)表的題為“在漢語自動(dòng)翻譯中實(shí)現(xiàn)自動(dòng)翻譯”的研究論文,他們開發(fā)的新型NMT系統(tǒng)的一些變體已經(jīng)實(shí)現(xiàn)了“人類平等”,即它們被認(rèn)為是平等的人文翻譯質(zhì)量“(本文將人的素質(zhì)定義為”WMT 2017中文到英文新聞任務(wù)的專業(yè)人類翻譯“)。

  在24小時(shí)之內(nèi),TechCrunch,GeekWire,TechRadar和ZDNet等主流技術(shù)網(wǎng)點(diǎn)發(fā)布了這個(gè)故事,可預(yù)見地將人權(quán)平價(jià)理賠視為面值。

  微軟提出了一個(gè)新的人類評(píng)估系統(tǒng)來得出這個(gè)方便的結(jié)論,但首先他們必須確保“人類平等”不那么模糊和更明確。

  因此,微軟在其研究中對(duì)人類平等的定義是:“如果雙語人類對(duì)人類生產(chǎn)的候選翻譯的質(zhì)量進(jìn)行判斷,使其與由機(jī)器產(chǎn)生的翻譯質(zhì)量相當(dāng),那么該機(jī)器就實(shí)現(xiàn)了人類的平等。”

  在數(shù)學(xué)上,可測(cè)試的術(shù)語中,如果機(jī)器翻譯系統(tǒng)的候選翻譯測(cè)試集的人類質(zhì)量得分與相應(yīng)的人類翻譯的得分之間沒有統(tǒng)計(jì)學(xué)顯著差異,則實(shí)現(xiàn)人類奇偶性。“

  新的人類評(píng)估方法

  該研究團(tuán)隊(duì)使用2017年機(jī)器翻譯會(huì)議測(cè)試集來獲取新聞(WMT2017 newstest)數(shù)據(jù),用于培訓(xùn)和測(cè)試其新的NMT系統(tǒng)變體。

  微軟團(tuán)隊(duì)使用了雙語人工評(píng)估器,并向他們提供了源自WMT2017新聞測(cè)試集的源文本和翻譯輸出,并要求他們對(duì)0到100的翻譯進(jìn)行評(píng)分.WMT2017會(huì)議中的頂級(jí)執(zhí)行引擎是搜狗公司的搜狗知識(shí)NMT系統(tǒng)。研究人員還讓他們的評(píng)估員評(píng)估了搜狗Knowing NMT的輸出。

  他們向評(píng)估人員展示了九個(gè)系統(tǒng)的輸出結(jié)果。根據(jù)研究報(bào)告,每個(gè)系統(tǒng)大約有2000個(gè)評(píng)估(每個(gè)系統(tǒng)至少有1,827個(gè)評(píng)估)。

  根據(jù)微軟的人力評(píng)估人員,從最好到最差的排名:

  微軟新的NMT引擎變體(Combo-6)

  參考用于此研究的人工翻譯

  微軟新的NMT引擎變體(Combo-5)

  微軟新的NMT引擎變體(組合-4)

  WMT2017的參考翻譯是后編輯的機(jī)器翻譯

  搜狗了解NMT

  WMT2017在會(huì)議中使用的參考人類翻譯

  微軟現(xiàn)有的生產(chǎn)型NMT系統(tǒng)

  谷歌現(xiàn)有的生產(chǎn)NMT系統(tǒng)

  根據(jù)微軟研究人員的說法,前四項(xiàng)是分組在一起的,并且彼此保持一致,即他們的分?jǐn)?shù)非常接近,彼此之間沒有區(qū)別。

  微軟與搜狗

  奇怪的是,微軟的研究報(bào)告還顯示,使用這種新的評(píng)估方法,搜狗Knowing NMT的得分非常接近WMT2017參考人類翻譯的得分,因此他們被認(rèn)為難以區(qū)分。

  看起來微軟還無意中使用了他們的新評(píng)估方法,即搜狗至少與WMT2017參考人工翻譯相比達(dá)到了人類平等。

  同時(shí),微軟和谷歌現(xiàn)有的生產(chǎn)型NMT系統(tǒng)得分最低。

  請(qǐng)親自看看:微軟最高得分的NMT系統(tǒng)變體的英文輸出取自他們的開源Github鏈接。從內(nèi)容看,平均句子長(zhǎng)度并不長(zhǎng),也不是非常復(fù)雜。

  他們還使用雙語評(píng)估研究(BLEU)來衡量以前工作中的任何收益,這些收益也使用BLEU積分進(jìn)行評(píng)分,包括WMT2017對(duì)參與NMT引擎的排名。

  據(jù)報(bào)道,微軟的NMT模型設(shè)置(包括基線在內(nèi)的12項(xiàng)中的10項(xiàng))大部分都是Sogou Knowing NMT的26.40 BLEU分?jǐn)?shù)。微軟的表現(xiàn)最佳的NMT變體以27.40分的優(yōu)勢(shì)擊敗了最先進(jìn)的1個(gè)BLEU,全部使用了與WMT2017相同的訓(xùn)練數(shù)據(jù)。

  發(fā)光的新技術(shù)和培訓(xùn)方法

  研究小組為他們的實(shí)驗(yàn)開發(fā)了新的NMT引擎。他們嘗試了遞歸神經(jīng)網(wǎng)絡(luò),卷積網(wǎng)絡(luò)和變壓器,并且最終因?yàn)檩敵龈枚褂昧俗儔浩饕妗?/p>

  接下來,他們還升級(jí)了培訓(xùn)方案。

  他們采用了最近稱為雙重學(xué)習(xí)的技術(shù),使他們的模型能夠從雙語培訓(xùn)數(shù)據(jù)的源到目標(biāo)和目標(biāo)到源的方向?qū)W習(xí)。他們還使用了Deliberation Networks,它使用另一個(gè)解碼器層來“拋光”NMT系統(tǒng)中第一個(gè)解碼器的翻譯 - 就像編輯器打磨作者的草稿。此外,他們還采用聯(lián)合培訓(xùn)和協(xié)議正規(guī)化。

  他們基本上混合并匹配所有這些方法,以迭代方式改進(jìn)跨同一NMT系統(tǒng)的多個(gè)變體的翻譯輸出。

  微軟團(tuán)隊(duì)還過濾了WMT2017的訓(xùn)練數(shù)據(jù)。清理和過濾培訓(xùn)數(shù)據(jù)后,乳清中剩下1800萬雙雙語句子和700萬中英文單語句子。

 

  未來的工作

  微軟就這個(gè)新的研究開源做了一切,引用外部驗(yàn)證和未來研究為理由。

  至于何時(shí),微軟計(jì)劃將其新系統(tǒng)轉(zhuǎn)化為生產(chǎn),公司發(fā)言人告訴ZDNet:“我們正在努力盡快將其投入生產(chǎn),但目前我們沒有任何聲明。”