當前位置:編程學習大全網 - 編程語言 - 數據挖掘十大經典算法之樸素貝葉斯

數據挖掘十大經典算法之樸素貝葉斯

樸素貝葉斯,它是壹種簡單但極為強大的預測建模算法。之所以稱為樸素貝葉斯,**是因為它假設每個輸入變量是獨立的。**這個假設很硬,現實生活中根本不滿足,但是這項技術對於絕大部分的復雜問題仍然非常有效。

貝葉斯原理、貝葉斯分類和樸素貝葉斯這三者之間是有區別的。

貝葉斯原理是最大的概念,它解決了概率論中“逆向概率”的問題,在這個理論基礎上,人們設計出了貝葉斯分類器,樸素貝葉斯分類是貝葉斯分類器中的壹種,也是最簡單,最常用的分類器。樸素貝葉斯之所以樸素是因為它假設屬性是相互獨立的,因此對實際情況有所約束,**如果屬性之間存在關聯,分類準確率會降低。**不過好在對於大部分情況下,樸素貝葉斯的分類效果都不錯。

樸素貝葉斯分類器依靠精確的自然概率模型,在有監督學習的樣本集中能獲取得非常好的分類效果。在許多實際應用中,樸素貝葉斯模型參數估計使用最大似然估計方法,換而言之樸素貝葉斯模型能工作並沒有用到貝葉斯概率或者任何貝葉斯模型。

樸素貝葉斯分類 常用於文本分類 ,尤其是對於英文等語言來說,分類效果很好。它常用於垃圾文本過濾、情感預測、推薦系統等。

1、 需要知道先驗概率?

先驗概率是計算後驗概率的基礎。在傳統的概率理論中,先驗概率可以由大量的重復實驗所獲得的各類樣本出現的頻率來近似獲得,其基礎是“大數定律”,這壹思想稱為“頻率主義”。而在稱為“貝葉斯主義”的數理統計學派中,他們認為時間是單向的,許多事件的發生不具有可重復性,因此先驗概率只能根據對置信度的主觀判定來給出,也可以說由“信仰”來確定。?

2、按照獲得的信息對先驗概率進行修正?

在沒有獲得任何信息的時候,如果要進行分類判別,只能依據各類存在的先驗概率,將樣本劃分到先驗概率大的壹類中。而在獲得了更多關於樣本特征的信息後,可以依照貝葉斯公式對先驗概率進行修正,得到後驗概率,提高分類決策的準確性和置信度。?

3、分類決策存在錯誤率?

由於貝葉斯分類是在樣本取得某特征值時對它屬於各類的概率進行推測,並無法獲得樣本真實的類別歸屬情況,所以分類決策壹定存在錯誤率,即使錯誤率很低,分類錯誤的情況也可能發生。?

第壹階段:準備階段

在這個階段我們需要確定特征屬性,同時明確預測值是什麽。並對每個特征屬性進行適當劃分,然後由人工對壹部分數據進行分類,形成訓練樣本。

第二階段:訓練階段

這個階段就是生成分類器,主要工作是 計算每個類別在訓練樣本中的出現頻率 及 每個特征屬性劃分對每個類別的條件概率。

第三階段:應用階段

這個階段是使用分類器對新數據進行分類。

優點:

(1)樸素貝葉斯模型發源於古典數學理論,有穩定的分類效率。

(2)對小規模的數據表現很好,能個處理多分類任務,適合增量式訓練,尤其是數據量超出內存時,我們可以壹批批的去增量訓練。

(3)對缺失數據不太敏感,算法也比較簡單,常用於文本分類。

缺點:

(1)理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此,這是因為樸素貝葉斯模型給定輸出類別的情況下,假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。對於這壹點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

(2)需要知道先驗概率,且先驗概率很多時候取決於假設,假設的模型可以有很多種,因此在某些時候會由於假設的先驗模型的原因導致預測效果不佳。

(3)由於我們是通過先驗和數據來決定後驗的概率從而決定分類,所以分類決策存在壹定的錯誤率。

(4)對輸入數據的表達形式很敏感。

參考:

/qiu_zhi_liao/article/details/90671932

/u011067360/article/details/24368085

  • 上一篇:目標代碼的目標文件格式
  • 下一篇:ArcGIS Engine 地理信息系統開發教程的內容簡介
  • copyright 2024編程學習大全網