當前位置:編程學習大全網 - 熱門推薦 - 詞頻統計的意義

詞頻統計的意義

詞頻統計的意義:詞頻統計是用來統計壹篇文章中,某壹個字段出現的次數,從而了解文章的重點,關鍵字,方便理解作者的想法。

字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-DF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。文字軟件恐怕還沒有妳想的那麽智能,可以自主分析關鍵詞。它只可以提取出現頻率較高的詞語。

詞頻統計原理:在壹份給定的文件裏,詞頻(termfrequency,.TF)指的是某壹個給定的詞語在該文件中出現的次數。這個數字通常會被正規化,以防止它偏向長的文件。(同壹個詞語在長文件裏可能會比短文件有更高的詞頻,而不管該詞語重要與否。)

逆向文件頻率(inversedocumentfrequency,IDF)是壹個詞語普追重要性的度量。某壹特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。

假如壹篇文件的總詞語數是100個,而詞語“母牛”出現了3次,那麽“母牛”壹詞在該文件中的詞頻就是0.03(3/100)。壹個計算文件頻率(DF)的方法是測定有多少份文件出現過“母牛”壹詞,然後除以文件集裏包含的文件總數。

所以,如果“母牛”壹詞在1,000份文件出現過,而文件總數是10,000,000份的話,其逆向文件頻率就是9.21=((10,000,000/1,000)。最後的TF-IDF的分數為0.28=(0.039.21)。

  • 上一篇:芒種是什麽意思啊
  • 下一篇:致敬抗美援朝爭做時代新人手抄報
  • copyright 2024編程學習大全網