有哪些比較好的中文分詞方案？

中文分詞是中文文本處理的壹個基礎步驟，也是中文人機自然語言交互的基礎模塊。不同於英文的是，中文句子中沒有詞的界限，因此在進行中文自然語言處理時，通常需要先進行分詞，分詞效果將直接影響詞性、句法樹等模塊的效果。當然分詞只是壹個工具，場景不同，要求也不同。在人機自然語言交互中，成熟的中文分詞算法能夠達到更好的自然語言處理效果，幫助計算機理解復雜的中文語言。竹間智能在構建中文自然語言對話系統時，結合語言學不斷優化，訓練出了壹套具有較好分詞效果的算法模型，為機器更好地理解中文自然語言奠定了基礎。在此，對於中文分詞方案、當前分詞器存在的問題，以及中文分詞需要考慮的因素及相關資源，竹間智能自然語言與深度學習小組做了些整理和總結。中文分詞根據實現原理和特點，主要分為以下2個類別：

1、基於詞典分詞算法也稱字符串匹配分詞算法。該算法是按照壹定的策略將待匹配的字符串和壹個已建立好的“充分大的”詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞算法分為以下幾種：正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基於詞典的分詞算法是應用最廣泛、分詞速度最快的。很長壹段時間內研究者都在對基於字符串匹配方法進行優化，比如最大長度設定、字符串存儲和查找方式以及對於詞表的組織結構，比如采用TRIE索引樹、哈希索引等。

2、基於統計的機器學習算法這類目前常用的是算法是HMM、CRF、SVM、深度學習等算法，比如stanford、Hanlp分詞工具是基於CRF算法。以CRF為例，基本思路是對漢字進行標註訓練，不僅考慮了詞語出現的頻率，還考慮上下文，具備較好的學習能力，因此其對歧義詞和未登錄詞的識別都具有良好的效果。NianwenXue在其論文《Combining Classifiers for Chinese Word Segmentation》中首次提出對每個字符進行標註，通過機器學習算法訓練分類器進行分詞，在論文《Chinese word segmentation as character tagging》中較為詳細地闡述了基於字標註的分詞法。常見的分詞器都是使用機器學習算法和詞典相結合，壹方面能夠提高分詞準確率，另壹方面能夠改善領域適應性。

上一篇:machining數控仿真軟件 v2.0.0.9中文免費版怎麽操作

下一篇:大家對spark的源碼了解多少，sparkshuffle，調度，sparkstreaming的源碼？

java編程要和歐姆龍通訊，在哪裏下載java包？

如何使用單片機精確控制步進電機？

實現灌溉工程自動控制的目的意義

組件開發與步驟

計算機硬件包括哪五大部份，各部份的功能是什麽？

電腦版植物大戰僵屍怎樣改變僵屍造型

編程貓用編程玩遊戲。