當前位置:編程學習大全網 - 源碼破解 - 什麽是決策樹?

什麽是決策樹?

決策樹(Decision Tree)常用於研究類別歸屬和預測關系的模型,比如是否抽煙、是否喝酒、年齡、體重等4項個人特征可能會影響到‘是否患癌癥’,上述4項個人特征稱作‘特征’,也即自變量(影響因素X),‘是否患癌癥’稱為‘標簽’,也即因變量(被影響項Y)。決策樹模型時,其可先對年齡進行劃分,比如以70歲為界,年齡大於70歲時,可能更容易歸類為‘患癌癥’,接著對體重進行劃分,比如大於50公斤為界,大於50公斤時更可能劃分為‘患癌癥’,依次循環下去,特征之間的邏輯組合後(比如年齡大於70歲,體重大於50公斤),會對應到是否患癌癥這壹標簽上。

決策樹是壹種預測模型,為讓其有著良好的預測能力,因此通常需要將數據分為兩組,分別是訓練數據和測試數據。訓練數據用於建立模型使用,即建立特征組合與標簽之間的對應關系,得到這樣的對應關系後(模型後),然後使用測試數據用來驗證當前模型的優劣。通常情況下,訓練數據和測試數據的比例通常為9:1,8:2,7:3,6:4或者5:5(比如9:1時指所有數據中90%作為訓練模型使用,余下10%作為測試模型好壞使用)。具體比例情況似研究數據量而定無固定標準,如果研究數據較少,比如僅幾百條數據,可考慮將70%或者60%,甚至50%的數據用於訓練,余下數據用於測試。上述中包括模型構建和模型預測兩項,如果訓練數據得到的模型優秀,此時可考慮將其進行保存並且部署出去使用(此為計算機工程中應用,SPSSAU暫不提供);除此之外,當決策樹模型構建完成後可進行預測,比如新來壹個病人,他是否會患癌癥及患癌癥的可能性有多高。

決策樹模型可用於特征質量判斷,比如上述是否抽煙、是否喝酒、年齡、體重等4項,該四項對於‘是否患癌癥’的預測作用重要性大小可以進行排名用於篩選出最有用的特征項。

決策樹模型的構建時,需要對參數進行設置,其目的在於構建良好的模型(良好模型的標準通常為:訓練數據得到的模型評估結果良好,並且測試數據時評估結果良好)。需要特別註意壹點是:訓練數據模型評估結果可能很好(甚至準確率等各項指標為100%),但是在測試數據上評估結果確很糟糕,此種情況稱為‘過擬合’。因而在實際研究數據中,需要特別註意此種情況。模型的構建時通常情況下參數設置越復雜,其會帶來訓練數據的模型評估結果越好,但測試效果卻很糟糕,因而在決策樹構建時,需要特別註意參數的相關設置,接下來會使用案例數據進行相關說明。SPSSAU的操作如下:

訓練集比例默認選擇為:0.8即80%(150*0.8=120個樣本)進行訓練決策樹模型,余下20%即30個樣本(測試數據)用於模型的驗證。需要註意的是,多數情況下,會首先對數據進行標準化處理,處理方式壹般使用為正態標準化,此處理目的是讓數據保持壹致性量綱。當然也可使用其它的量綱方式,比如區間化,歸壹化等。

接著對參數設置如下:

節點分裂標準默認為gini系數(該參數值只是計算分裂標準的方式,不需要設置),節點劃分方式為best法,即為結合特征的優劣順序進行分類劃分,如果為了設置參數對比需要考慮,建議可對該參數值進行切換為random即隨機特征的優先順序,用於對比模型訓練效果。

節點分列最小樣本量默認為2即可,葉節點最小樣本量默認為1即可。需要註意的是:如果數據量較大時,建議將該2個參數值盡量大,以減少過擬合現象,但該2個參數值越大時通常訓練模型的擬合效果越差。具體應該以測試數據的擬合效果為準,因為訓練模型容易出現過擬合現象。樹最大深度這個參數時,其代表決策樹最多有幾層的意思,該參數值設置越大時,訓練模型擬合效果通常越好,但可能帶來過擬合情況,本案例出於演示需求,先設置為4層。(另提示:樹最大深度會受到節點分裂最小樣本量、葉節點最小樣本量的影響,並非設置為4它壹定就會為4)。

SPSSAU部分結果示例:

  • 上一篇:靜物組合的原則有哪些
  • 下一篇:容聯雲會退市嗎
  • copyright 2024編程學習大全網