當前位置:編程學習大全網 - 遊戲軟體 - 文本分類的6類方法

文本分類的6類方法

壹、中文分詞:

針對中文文本分類時,很關鍵的壹個技術就是中文分詞。特征粒度為詞粒度遠遠好於字粒度,其大部分分類算法不考慮詞序信息,基於字粒度的損失了過多的n-gram信息。下面簡單總結壹下中文分詞技術:基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法 [1]。

1,基於字符串匹配的分詞方法:

過程:這是壹種基於詞典的中文分詞,核心是首先建立統壹的詞典表,當需要對壹個句子進行分詞時,首先將句子拆分成多個部分,將每壹個部分與字典壹壹對應,如果該詞語在詞典中,分詞成功,否則繼續拆分匹配直到成功。

核心: 字典,切分規則和匹配順序是核心。

分析:優點是速度快,時間復雜度可以保持在O(n),實現簡單,效果尚可;但對歧義和未登錄詞處理效果不佳。

2,基於理解的分詞方法:基於理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由於漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。

3,基於統計的分詞方法:

過程:統計學認為分詞是壹個概率最大化問題,即拆分句子,基於語料庫,統計相鄰的字組成的詞語出現的概率,相鄰的詞出現的次數多,就出現的概率大,按照概率值進行分詞,所以壹個完整的語料庫很重要。

主要的統計模型有: N元文法模型(N-gram),隱馬爾可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),條件隨機場模型(Conditional Random Fields,CRF)等。

二、文本預處理:

1,分詞: 中文任務分詞必不可少,壹般使用jieba分詞,工業界的翹楚。

2,去停用詞:建立停用詞字典,目前停用詞字典有2000個左右,停用詞主要包括壹些副詞、形容詞及其壹些連接詞。通過維護壹個停用詞表,實際上是壹個特征提取的過程,本質 上是特征選擇的壹部分。

3,詞性標註: 在分詞後判斷詞性(動詞、名詞、形容詞、副詞…),在使用jieba分詞的時候設置參數

  • 上一篇:搜狗的發展簡史
  • 下一篇:小米系統app
  • copyright 2024編程學習大全網