自然語言處理——7.5 自動分詞基本算法

? 有詞典切分/ 無詞典切分

? 基於規則的方法/ 基於統計的方法

－有詞典切分，機械切分

假設句子：，某壹詞：為詞典中最長詞的字數。

設待切分字串，其中為單個的字，為串的長度，。建立壹個節點數為的切分有向無環圖，各節點編號依次為。

求最短路徑：貪心法或簡單擴展法。

把輸入字串(句子) 作為的輸入；切分後的單詞串為狀態的輸出，即觀察序列。詞性序列為狀態序列，每個詞性標記對應中的壹個狀態，。

將分詞過程看作是字的分類問題。該方法認為，每個字在構造壹個特定的詞語時都占據著壹個確定的構詞位置(即詞位)。假定每個字只有4個詞位：詞首(B)、詞中(M)、詞尾(E)和單獨成詞(S)，那麽，每個字歸屬壹特定的詞位。

該方法的重要優勢在於，它能夠平衡地看待詞表詞和未登錄詞的識別問題，文本中的詞表詞和未登錄詞都是用統壹的字標註過程來實現的。在學習構架上，既可以不必專門強調詞表詞信息，也不用專門設計特定的未登錄詞識別模塊，因此，大大地簡化了分詞系統的設計

使用3-gram:

而基於字的分詞方法采用區分式模型(Discriminative model)

假設是觀察值，是模型。如果對進行建模, 就是生成式模型。其基本思想是：首先建立樣本的概率密度模型，再利用模型進行推理預測。要求已知樣本無窮多或者盡可能地多。該方法壹般建立在統計學和 Bayes 理論的基礎之上。

? 主要特點 ：從統計的角度表示數據的分布情況，能夠反映同類數據本身的相似度。

? 主要優點 ：實際上所帶的信息要比判別式模型豐富，研究單類問題比判別式模型靈活性強，模型可以通過增量學習得到，且能用於數據不完整(missing data) 情況。

? 主要缺點 ：學習和計算過程比較復雜。

6.2.2 判別(區分)式模型(Discriminative Model)

如果對條件概率(後驗概率) 進行建模，就是判別式模型。基本思想是：有限樣本條件下建立判別函數，不考慮樣本的產生模型，直接研究預測模型。表性理論為統計學習理論。

? 主要特點 ：尋找不同類別之間的最優分類面，反映的是異類數據之間的差異。

? 主要優點 ：判別式模型比生成式模型較容易學習。

? 主要缺點 ：黑盒操作，變量間的關系不清楚，不可視。

基於字的區分模型有利於處理集外詞，而基於詞的生成模型更多地考慮了詞匯之間以及詞匯內部字與字之間的依存關系。因此，可以將兩者的優勢結合起來。

6.2.3 結合方法1

結合方法1：將待切分字串的每個漢字用替代，以作為基元，利用語言模型選取全局最優(生成式模型)。

6.2.4 結合方法2:插值法把兩種方法結合起來

上一篇:註意投票源代碼