當前位置:編程學習大全網 - 源碼下載 - 文本特征提取

文本特征提取

在對文本數據進行處理時,很大壹部分精力都用在數據集的特征提取上,因此記錄壹下常用的文本特征提取方法。

文本特征提取壹般分為兩部分

(1)文本本身屬性:元音字數數、輔音字母數、···

(2)基於文本的特征提取:TF-IDF等

比如提取以上文檔的特征,基於文本本身可以提取特征:

(1)字數:統計每壹行text文本的詞匯數量(有多少個單詞)

(2)非重復單詞數量:統計每壹行text文本中只出現壹次的單詞個數

(3)長度:每壹行text的長度,占了多少存儲空間(包含空格、符號、字母等的長度)

(4)停止詞數量統計:between、but、about、very等詞匯的數量統計

(5)標點符號數量:每壹行text中包含的標點符號數量

(6)大寫單詞數量:統計大寫單詞數量

(7)標題式單詞數量:統計單詞拼寫首字母是否為大寫,且其他字母為小寫的單詞數量

(8)單詞的平均長度:每壹行text中每個單詞長度的平均值

這些特征的提取不涉及復雜的函數計算,基於文本本身屬性提取直觀信息作為模型訓練的特征。

·

TF-IDF算法 :計算單詞權重最為有效的實現方法就是TF-IDF, 它是由Salton在1988 年提出的,以特征詞在文檔d中出現的次數與包含該特征詞的文檔數之比作為該詞的權重。

python中使用TfidfVectorizer函數實現TF-IDF特征的提取,生成每個text的TF-IDF特征。

·

經過TF-IDF特征提取後,數據集的特征變量超級多(TF-IDF計算了整個數據集出現的所有單詞對每個test的權重),面對這樣龐大的特征數據,可以通過SVD實現對數據集的壓縮。

SVD的原理是將龐大的TF-IDF生成的數據集A進行拆分,設置K值(想要壓縮得到的維度,例如K=20,壓縮後得到20列的特征數據集)X就是只有K個特征轉換後的數據集。

經過壓縮後的TF-IDF只有K列,與01中 基於文本本身特征 合並,即為文本數據集的特征向量。

  • 上一篇:十大燒腦高智商電影
  • 下一篇:webapp怎麽連接數據庫(web與數據庫連接)
  • copyright 2024編程學習大全網