for Neural Machine Translation ( Jinsong Su et al. )
摘要介紹:
NMT神經機器翻譯很大程度上依賴於詞級建模來學習輸入句子的語義表示。
對於處理沒有自然語言分隔符的語言(比如中文),需要首先進行標記,這就產生了
兩個問題:1)為源句子模型找到最優標記粒度的難度很大,粗粒度導致數據稀疏,細粒度導致有用信息丟失;2)難度大就容易造成錯誤,產生的錯誤會帶到NMT的編碼器中去,影響源句子的表示。
基於這兩個問題,為了更好地進行源句建模,有必要向NMT提供多個標記化,而不是單壹的標記化序列。
本文提出了壹種 基於詞格的遞歸神經網絡 NMT編碼器:1)以壓縮編碼多個標記字格作為輸入;2)並在前面的時間步驟中學習從任意多個輸入和隱藏狀態生成新的隱藏狀態。
字格是許多標記化的壓縮表示,基於詞格的編碼器不僅減輕了最佳標記方式的標記錯誤( 1-best
tokenization errors)的負面影響,而且更具有表達性和嵌入輸入句子的靈活性。
?
NMT特點:
傳統的統計機器翻譯模擬管道(pipeline)中源語言和目標語言之間的潛在結構和對應關系,
NMT則是訓練了壹個統壹的編碼-解碼神經網絡,其中編碼器將輸入的句子映射成固定長度的向量,解碼器從編碼的向量生成翻譯。
基於詞格的遞歸神經網絡 NMT :
本文調查和比較了兩個基於詞格的RNN編碼器:
1).淺度詞格GRU編碼器:基於來自多個采用標準GRU體系結構的標記的輸入和隱藏狀態的組合;
2).深度詞格GRU編碼器:它學習並更新門、輸入和隱藏狀態的特定標記向量(tokenization-specific
vector),然後為當前單元生成隱藏狀態向量。
在這兩種編碼器中,可以同時利用許多不同的標記來進行輸入句子建模。
結論:
與標準的RNN編碼器相比,本文的編碼器同時利用輸入和前面的隱藏狀態,依賴於 多個標記 來為源語句建模。因此,它們不僅減少了1-best tokenization
errors的傳播,而且比標準編碼器更具表現力和靈活性。
漢英互譯的實驗結果表明,本文的編碼器在各種基線上都有顯著的改進。
展望:
本文的網絡結構依賴於源句的詞格。 擴展模型,將分割模型合並到源句表示學習中 。通過這種方式,符號化和翻譯可以相互協作。此外, 更好的組合策略來改進編碼器 。
驗證實驗:
為了驗證所提出的編碼器的有效性,我們對漢英翻譯任務進行了實驗。
實驗結果表明:
(1)利用詞界信息學習準確嵌入輸入的漢語句子是十分必要的;
(2)基於詞格的RNN編碼器在NMT方面優於標準RNN編碼器。據我們所知,這是第壹次嘗試在詞格上構建NMT。
實驗部分:
1.數據集
對NIST漢英翻譯任務中提出的編碼器進行了評估:
訓練數據集:LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T07、LDC2004T08和LDC2005T06中提取的125萬對句子,其中中文單詞2790萬,英文單詞3450萬。
驗證數據集:NIST 2005數據集
測試數據集:NIST 2002、2003、2004、2006和2008數據集。
使用斯坦福大學發布的toolkit2在CTB、PKU和MSR語料庫上訓練分詞器以獲得漢語句子格。
為了有效的訓練神經網絡,我們使用了中、英文最常用的50K單詞作為我們的詞匯。CTB、北大、MSR、lattice語料庫中的漢語詞匯占98.5%、98.6%、99.3%、97.3%,英語詞匯占99.7%。
2.實驗結果:
字符覆蓋比率:
翻譯質量:
使用1-best分詞的NMT解碼實驗:
模型:
Word Lattice
Lattice模型完全獨立於分詞,但由於可以在上下文中自由選擇詞匯來消除歧義,因此在使用單詞信息時更加有效。
兩種基於詞格的RNN 編碼器
閱讀筆記二 基於 BLSTM 的命名實體識別方法( fenget al. )
摘要介紹:
對於(1)監督學習語料不足;(2)RNN 無法很好地處理長距離依賴問題, 並且訓練算法存在梯度消失或爆炸問題
基於三點考慮:(1)文本是否被識別為命名實體與其上下文有關, 也與 構成命名實體的每個字及字序 有關;(2)考慮標註序列中標簽間的相關性, 對本文提出的模型的代價函數進行約束, 在小的訓練數據上盡可能挖掘有價值的信息 , 以提高命名實體識別的效果;(3)傳統識別方法中的人工特征和領域知識對命名實體的識別效果的提升有重要影響, 但設計人工特征和獲取領域知識的代價昂貴。
因此,本文提出了壹種利用神經網絡模型解決命名實體識別問題的有效方法, 該方法不直接依賴人工特征和外部資源, 只是利用了少量的監督數據、 領域知識和大量的無標註數據, 解決了目前的機器學習方法中過度依賴人工特征和領域知識及語料不足的問題。本文提出的命名實體識別方法中融入了詞語的上下文信息、 詞語的前後綴信息和領域詞典, 將這種信息特征化為詞的分布表示特征; 考慮了詞語的標簽之間的約束關系, 進壹步提高了識別的效果。
展望: 本文只是順序地讀取數據對命名實體進行識別, 每個詞語對命名實體的影響同等重要, 並沒有考慮不同的詞語對命名實體的不同影響,如何將深度學習的 註意力機制 引入本文的模型中、 重點關註對命名實體識別有重要影響的詞語, 是進壹步需要解決的問題。
實驗部分:
數據集:
DataSet1(大規模無標註語料)、DataSet2(標註語料)、DataSet3(命名實體識別標註語料)
DataSet4(本文將DataSet2 和DataSet3 中的標簽進行 刪除, 並 拆分 為 字符序列數據, 得到的數據集)
DataSet5(選擇搜狗輸入法詞庫中的部分數據[, 包括常見的中國人名、中國地名、 國家機關組織機構名, 拆分為 字符序列數據)
樣本分類:TP? FP? TN? FN
評價指標:精確率(Precision,P)、召回率 (Recall, R) 、F 測度值 (F-score,F) 、敏感度 (Sensitivity, Sent) 、特異性 (Specificity,Spec) 、1-特異性(1GSpec) 、 準確率(Accuracy,Acc)
實驗結果:
實驗影響因素:
地名和機構名這兩類命名實體的長度通常較人名長, 而且構成復雜,由基於上下文的詞向量和BLSTM_Ec 模型訓練得到的詞向量對識別效果有積極的影響。
? 人名詞語長度較短、人名的姓氏和名字沒有較強的約束關系、人名詞典中的人名與待識別的文本中的人名實體沒有很強的相關性, 因此前後綴信息、標簽約束信息和領域知識對人名這類實體有壹定的影響, 但影響不大。
模型:
其中,Ec為字符級向量;Ew為基於上下文詞語的詞向量。
閱讀筆記壹 An Empirical Study of Automatic Chinese
Word Segmentation for Spoken Language Understanding and Named Entity
Recognition ( Luo et al. )
背景: 在英語文本中,句子是用空格分隔的單詞序列。中文句子則是沒有自然分隔符的字符串(其他類似語言:阿拉伯語、日語),漢語處理任務的第壹步是識別句子中的單詞序列,在合適的位置作邊界標記。在中文文本中分詞可以壹定程度消歧義。分詞通常被認為是許多中文自然語言處理任務的第壹步,但它對這些後續任務的影響相對研究較少。
摘要介紹:
目前主要存在問題是1)在對新數據應用現有的分詞器時的不匹配問題;2)壹個更好的分詞器是否能產生更好的後續NLP任務性能。
對於以上問題,本文提出三種方法: 1 )在後續的任務中使用分詞輸出作為額外的特征,這比使用分詞單元更能抵抗錯誤傳播。 2 )使用從後續任務訓練數據中獲得的部分標記數據對現有的分詞器進行改進,進壹步提高了端到端的性能。 3 )利用了分詞輸出的 n-best 表,使得後續的任務對分詞錯誤不那麽敏感。
中文分詞的任務主要是:1)識別句子中的單詞序列。2)在合適的位置標記邊界。
總結:
本文提出三種方法:利用分詞輸出作為附加特征;進行局部學習自適應;利用n-best表。
另外還研究了CWS在三種不同情況下的影響: 1)當域數據沒有單詞邊界信息時,由公***域外數據構建的單詞分段器能夠提高端到端性能,將其與從人類註釋派生的部分標記數據進行調整可以進壹步提高性能。2)將n-best詞分段邊緣化會帶來進壹步的改進,當領域分詞可用時,使用領域數據本身訓練的詞分段者有更好的CWS性能,但不壹定有更好的端到端任務性能。壹個在訓練和測試數據上表現更 平衡 的詞段器可以獲得更好的端到端性能。3)在手工分割測試數據時,分詞確實對任務有很大幫助,分詞可以減少後續NLP任務的模糊性。
未來可能方向:順序堆疊兩層CRF,壹層用於分詞,壹層用於後續任務。除了序列標記問題,探討更多後續任務。
實驗( NER 部分):
對於使用的NER數據,域訓練和測試數據都有詞界信息。這裏討論用域內數據訓練的分詞器和公開可用數據之間的區別(第二種情況)。分詞性能與端到端後續任務之間的關系。
實驗數據:使用第三個SIGHAN中文處理Bakeoff的基準NER數據(SIGHAN-3)
(Levow, 2006)。訓練集數據:46364句,測試集數據:4365句。這些數據都被標註了單詞邊界和NER信息。
實驗結果: