前言:本文用到的方法叫做主題建模(topic model)或主題抽取(topic extraction),在機器學習的分類中,它屬於非監督學習(unsupervised machine learning)。它是文本挖掘中常用的主題模型,用來從大量文檔中提取出最能表達各個主題的壹些關鍵詞。
主題模型定義(維基百科):在機器學習和自然語言處理等領域是用來在壹系列文檔中發現抽象主題的壹種統計模型。
1.文本分詞
2.構建主題模型
註意:最好在linux下運行,我在windows下運行的時候,出現以下錯誤:
我在python3下即使加了if name =='main'還是錯誤的,所以我換到了linux下。