當前位置:編程學習大全網 - 編程語言 - 有哪些比較好的中文分詞方案?

有哪些比較好的中文分詞方案?

中文分詞是中文文本處理的壹個基礎步驟,也是中文人機自然語言交互的基礎模塊。不同於英文的是,中文句子中沒有詞的界限,因此在進行中文自然語言處理時,通常需要先進行分詞,分詞效果將直接影響詞性、句法樹等模塊的效果。當然分詞只是壹個工具,場景不同,要求也不同。在人機自然語言交互中,成熟的中文分詞算法能夠達到更好的自然語言處理效果,幫助計算機理解復雜的中文語言。竹間智能在構建中文自然語言對話系統時,結合語言學不斷優化,訓練出了壹套具有較好分詞效果的算法模型,為機器更好地理解中文自然語言奠定了基礎。在此,對於中文分詞方案、當前分詞器存在的問題,以及中文分詞需要考慮的因素及相關資源,竹間智能自然語言與深度學習小組做了些整理和總結。中文分詞根據實現原理和特點,主要分為以下2個類別:

1、基於詞典分詞算法也稱字符串匹配分詞算法。該算法是按照壹定的策略將待匹配的字符串和壹個已建立好的“充分大的”詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基於詞典的分詞算法是應用最廣泛、分詞速度最快的。很長壹段時間內研究者都在對基於字符串匹配方法進行優化,比如最大長度設定、字符串存儲和查找方式以及對於詞表的組織結構,比如采用TRIE索引樹、哈希索引等。

2、基於統計的機器學習算法這類目前常用的是算法是HMM、CRF、SVM、深度學習等算法,比如stanford、Hanlp分詞工具是基於CRF算法。以CRF為例,基本思路是對漢字進行標註訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。NianwenXue在其論文《Combining Classifiers for Chinese Word Segmentation》中首次提出對每個字符進行標註,通過機器學習算法訓練分類器進行分詞,在論文《Chinese word segmentation as character tagging》中較為詳細地闡述了基於字標註的分詞法。常見的分詞器都是使用機器學習算法和詞典相結合,壹方面能夠提高分詞準確率,另壹方面能夠改善領域適應性。

  • 上一篇:machining數控仿真軟件 v2.0.0.9中文免費版怎麽操作
  • 下一篇:大家對spark的源碼了解多少,sparkshuffle,調度,sparkstreaming的源碼?
  • copyright 2024編程學習大全網