文本分類的6類方法

壹、中文分詞：

針對中文文本分類時，很關鍵的壹個技術就是中文分詞。特征粒度為詞粒度遠遠好於字粒度，其大部分分類算法不考慮詞序信息，基於字粒度的損失了過多的n-gram信息。下面簡單總結壹下中文分詞技術:基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法 [1]。

1，基於字符串匹配的分詞方法：

過程：這是壹種基於詞典的中文分詞，核心是首先建立統壹的詞典表，當需要對壹個句子進行分詞時，首先將句子拆分成多個部分，將每壹個部分與字典壹壹對應，如果該詞語在詞典中，分詞成功，否則繼續拆分匹配直到成功。

核心：字典，切分規則和匹配順序是核心。

分析：優點是速度快，時間復雜度可以保持在O（n）,實現簡單，效果尚可；但對歧義和未登錄詞處理效果不佳。

2，基於理解的分詞方法：基於理解的分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。在總控部分的協調下，分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由於漢語語言知識的籠統、復雜性，難以將各種語言信息組織成機器可直接讀取的形式，因此目前基於理解的分詞系統還處在試驗階段。

3，基於統計的分詞方法：

過程：統計學認為分詞是壹個概率最大化問題，即拆分句子，基於語料庫，統計相鄰的字組成的詞語出現的概率，相鄰的詞出現的次數多，就出現的概率大，按照概率值進行分詞，所以壹個完整的語料庫很重要。

主要的統計模型有： N元文法模型（N-gram），隱馬爾可夫模型（Hidden Markov Model ，HMM），最大熵模型（ME），條件隨機場模型（Conditional Random Fields，CRF）等。

二、文本預處理：

1，分詞：中文任務分詞必不可少，壹般使用jieba分詞，工業界的翹楚。

2，去停用詞：建立停用詞字典，目前停用詞字典有2000個左右，停用詞主要包括壹些副詞、形容詞及其壹些連接詞。通過維護壹個停用詞表，實際上是壹個特征提取的過程，本質上是特征選擇的壹部分。

3，詞性標註：在分詞後判斷詞性（動詞、名詞、形容詞、副詞…），在使用jieba分詞的時候設置參數

上一篇:搜狗的發展簡史

下一篇:小米系統app

求孫耀威的《流氓太醫》（又名《皇朝太醫》）的地址！

白鹿原電影簡介

南翔鎮郵編

電視劇北風那個吹劇情介紹

R1SE解散後：周震南等5個隊友依舊是同事，何洛洛成為楊洋的同事

如何安排春遊出行計劃呢？

材料的強度理論有幾種？在管道強度設計中主要采用第幾強度理論？