統計機器翻譯的模型

噪聲信道模型假定，源語言中的句子f（信宿）是由目標語言中的句子e（信源）經過含有噪聲的信道編碼後得到的。那麽，如果已知了信宿f和信道的性質，我們可以得到信源產生信宿的概率，即p(e | f)。而尋找最佳的翻譯結果也就等同於尋找：

利用貝耶斯公式，並考慮對給定f，p(f)為常量，上式即等同於

由此，我們得到了兩部分概率：

p(f | e)，指給定信源，觀察到信號的概率。在此稱為翻譯模型。 p(e)，信源發生的概率。在此稱為語言模型可以這樣理解翻譯模型與語言模型，翻譯模型是壹種語言到另壹種語言的詞匯間的對應關系，而語言模型則體現了某種語言本身的性質。翻譯模型保證翻譯的意義，而語言模型保證翻譯的流暢。從中國對翻譯的傳統要求“信達雅”三點上看，翻譯模型體現了信與達，而雅則在語言模型中得到反映。

原則上任何語言模型均可以應用到上述公式中，因此以下討論集中於翻譯模型。在IBM提出的模型中，翻譯概率被定義為：

p(f | e) = p(f,a | e)其中的a被定義為隱含變量——詞對齊（Word Alignment），所謂詞對齊，簡而言之就是知道源語言句子中某個詞是由目標語言中哪個詞翻譯而來的。例如右圖中，壹個詞可以被翻譯為壹個或多個詞，甚至不被翻譯。於是，獲取翻譯概率的問題轉化為詞對齊問題。IBM系列模型及HMM, Model 6都是詞對齊的參數化模型。它們之間的區別在於模型參數的數量，類型各不相同。例如IBM Model 1，唯壹的參數是詞翻譯概率，與詞在句子中的位置無關。也就是說：

其中(i,j)是詞對齊中的壹條連接，表示源語言中的第i個詞翻譯到目標語言中的第j個詞。註意這裏的翻譯概率是詞之間而非位置之間的。IBM Model 2的參數中增加了詞在句子中的位置，公式為：

其中I,J分別為源、目標語言的句子長度。

HMM模型將IBM Model 2中的絕對位置更改為相對位置，即相對上壹個詞連接的位置，而IBM Model 3,4,5及Model 6引入了“Fertility Model”，代表壹個詞翻譯為若幹詞的概率。

在參數估計方面，壹般采用最大似然準則進行無監督訓練，對於大量的“平行語料”，亦即壹些互為翻譯的句子(fs,es)

由於並沒有直接的符號化最優解，實踐中采用EM算法。首先，通過現有模型，對每對句子估計(fs,es)全部可能的（或部分最可能的）詞對齊的概率，統計所有參數值發生的加權頻次，最後進行歸壹化。對於IBM Model 1,2，由於不需要Fertility Model，有簡化公式可獲得全部可能詞對齊的統計量，而對於其他模型，遍歷所有詞對齊是NP難的。因此，只能采取折衷的辦法。首先，定義Viterbi對齊為當前模型參數θ下，概率最大的詞對齊：

在獲取了Viterbi對齊後，可以只統計該對齊結果的相關統計量，亦可以根據該對齊，做少許修改後（即尋找“臨近”的對齊）後再計算統計量。IBM 3,4,5及Model 6都是采用這種方法。

目前直接采用噪聲信道模型進行完整機器翻譯的系統並不多見，然而其副產品——詞對齊卻成為了各種統計機器翻譯系統的基石。時至今日，大部分系統仍然首先使用GIZA++對大量的平行語料進行詞對齊。由於所面對的平行語料越來越多，對速度的關註使得MGIZA++，PGIZA++等並行化實現得到應用。噪聲信道模型和詞對齊仍然是研究的熱點，雖然對於印歐語系諸語言，GIZA++的對齊錯誤率已經很低，在阿拉伯語，中文等語言與印歐語系語言的對齊中錯誤率仍然很高。特別是中文，錯誤率常常達到30%以上。所謂九層之臺，起於累土，缺乏精確的詞對齊是中文機器翻譯遠遠落後於其他語言的原因。雖然目前出現了壹些區分性詞對齊技術，無監督對齊仍然是其中的重要組成部分。在這個框架下，M個特征函數

通過參數化公式

其中是每個特征函數的權重，也是模型所要估計的參數集，記為Λ。基於這個模型，獲取給定源語言句子f，最佳翻譯的決策準則為：

簡而言之，就是找到使得特征函數最大的解。

原則上，任何特征函數都可以被置於此框架下，噪聲信道模型中的翻譯模型、語言模型都可以作為特征函數。並且，在產生式模型中無法使用的“反向翻譯模型”，即p(f,e)也可以很容易的被引入這個框架中。目前基於短語的翻譯系統中，最常用的特征函數包括：

1.短語翻譯概率 2.詞翻譯概率（短語中每個詞的翻譯概率） 3.反向短語翻譯概率 4.反向詞翻譯概率 5.語言模型而壹些基於句法的特征也在被加入。優化準則指的是給定訓練語料，如何估計模型參數Λ。壹般來說，訓練模型參數需要壹系列已翻譯的文本，每個源語言句子fs擁有Rs個參考翻譯。

早期，區分性訓練被置於最大熵準則下，即：

這壹準則簡單快速且由於優化目標是凸的，收斂速度快。然而，壹個極大的問題是，“信息熵”本身和翻譯質量並無聯系，優化信息熵以期獲得較好的翻譯結果在邏輯上較難說明。借助客觀評價準則如BLEU，希望直接針對這些客觀準則進行優化能夠提升翻譯性能。由此而產生最小化錯誤率訓練算法。通過優化系統參數，使得翻譯系統在客觀評價準則上的得分越來越高，同時，不斷改進客觀評價準則，使得客觀評價準則與主觀評價準則越來越接近是目前統計機器翻譯的兩條主線。

使用這些客觀評價準則作為優化目標，即：

的壹個主要問題是，無法保證收斂性。並且由於無法得到誤差函數（即客觀評價準則）的導數，限制了可使用的優化方法。目前常用的方法多為改進的Powell法，壹般來說訓練時間頗長且無法針對大量數據進行訓練。語料預處理階段，需要搜集或下載平行語料，所謂平行語料，指的是語料中每壹行的兩個句子互為翻譯。目前網絡上有大量可供下載的平行語料。搜尋適合目標領域（如醫療、新聞等）的語料是提高特定領域統計機器翻譯系統性能的重要方法。

在獲取語料後，需要進行壹定得文本規範化處理，例如對英語進行詞素切分，例如將's獨立為壹個詞，將與詞相連的符號隔離開等。而對中文則需要進行分詞。同是，盡可能過濾壹些包含錯誤編碼的句子，過長的句子或長度不匹配（相差過大）的句子。

獲取的語料可分為三部分，第壹部分用於詞對齊及短語抽取，第二部分用於最小錯誤率訓練，第三部分則用於系統評價。第二第三部分的數據中，每個源語言句子最好能有多條參考翻譯。首先，使用GIZA++對平行語料進行對齊。由於GIZA++是“單向”的詞對齊，故而對齊應當進行兩次，壹次從源到目標，第二次從目標到源。壹般來說，GIZA++需要依次進行IBM Model 1, HMM及IBM Model 3,4的對齊，因IBM Model 2對齊效果不佳，而IBM Model 5耗時過長且對性能沒有較大貢獻。根據平行語料的大小不同及所設置的叠代次數多少，訓練時間可能很長。壹個參考數據為，1千萬句中文-英文平行語料（約3億詞）在Inter Xeon 2.4GHz服務器上運行時間約為6天。如果耗時過長可考慮使用MGIZA++和PGIZA++進行並行對齊（PGIZA++支持分布式對齊）。

其後，對兩個方向的GIZA++對齊結果進行合並，供短語抽取之用。最小化錯誤率訓練通過在所準備的第二部分數據——優化集（Tuning Set）上優化特征權重Λ，使得給定的優化準則最優化。壹般常見的優化準則包括信息熵，BLEU，TER等。這壹階段需要使用解碼器對優化集進行多次解碼，每次解碼產生N個得分最高的結果，並調整特征權重。當權重被調整時，N個結果的排序也會發生變化，而得分最高者，即解碼結果，將被用於計算BLEU得分或TER。當得到壹組新的權重，使得整個優化集的得分得到改進後，將重新進行下壹輪解碼。如此往復直至不能觀察到新的改進。

根據選取的N值的不同，優化集的大小，模型大小及解碼器速度，訓練時間可能需要數小時或數日。使用經最小化錯誤率訓練得到的權重，即可進行解碼。壹般此時即可在測試集上進行系統性能評價。在客觀評價基礎上，有壹些有條件的機構還常常進行主觀評價。

上一篇:外國的漂亮的女明星？

下一篇:csdn上傳的資源被舉報什麽意思