什麽是決策樹？

決策樹(Decision Tree)常用於研究類別歸屬和預測關系的模型，比如是否抽煙、是否喝酒、年齡、體重等4項個人特征可能會影響到‘是否患癌癥’，上述4項個人特征稱作‘特征’，也即自變量（影響因素X），‘是否患癌癥’稱為‘標簽’，也即因變量（被影響項Y）。決策樹模型時，其可先對年齡進行劃分，比如以70歲為界，年齡大於70歲時，可能更容易歸類為‘患癌癥’，接著對體重進行劃分，比如大於50公斤為界，大於50公斤時更可能劃分為‘患癌癥’，依次循環下去，特征之間的邏輯組合後（比如年齡大於70歲，體重大於50公斤），會對應到是否患癌癥這壹標簽上。

決策樹是壹種預測模型，為讓其有著良好的預測能力，因此通常需要將數據分為兩組，分別是訓練數據和測試數據。訓練數據用於建立模型使用，即建立特征組合與標簽之間的對應關系，得到這樣的對應關系後（模型後），然後使用測試數據用來驗證當前模型的優劣。通常情況下，訓練數據和測試數據的比例通常為9:1,8:2,7:3,6:4或者5:5（比如9:1時指所有數據中90%作為訓練模型使用，余下10%作為測試模型好壞使用）。具體比例情況似研究數據量而定無固定標準，如果研究數據較少，比如僅幾百條數據，可考慮將70%或者60%，甚至50%的數據用於訓練，余下數據用於測試。上述中包括模型構建和模型預測兩項，如果訓練數據得到的模型優秀，此時可考慮將其進行保存並且部署出去使用（此為計算機工程中應用，SPSSAU暫不提供）；除此之外，當決策樹模型構建完成後可進行預測，比如新來壹個病人，他是否會患癌癥及患癌癥的可能性有多高。

決策樹模型可用於特征質量判斷，比如上述是否抽煙、是否喝酒、年齡、體重等4項，該四項對於‘是否患癌癥’的預測作用重要性大小可以進行排名用於篩選出最有用的特征項。

決策樹模型的構建時，需要對參數進行設置，其目的在於構建良好的模型（良好模型的標準通常為：訓練數據得到的模型評估結果良好，並且測試數據時評估結果良好）。需要特別註意壹點是：訓練數據模型評估結果可能很好（甚至準確率等各項指標為100%），但是在測試數據上評估結果確很糟糕，此種情況稱為‘過擬合’。因而在實際研究數據中，需要特別註意此種情況。模型的構建時通常情況下參數設置越復雜，其會帶來訓練數據的模型評估結果越好，但測試效果卻很糟糕，因而在決策樹構建時，需要特別註意參數的相關設置，接下來會使用案例數據進行相關說明。SPSSAU的操作如下：

訓練集比例默認選擇為:0.8即80%（150*0.8=120個樣本）進行訓練決策樹模型，余下20%即30個樣本(測試數據)用於模型的驗證。需要註意的是，多數情況下，會首先對數據進行標準化處理，處理方式壹般使用為正態標準化，此處理目的是讓數據保持壹致性量綱。當然也可使用其它的量綱方式，比如區間化，歸壹化等。

接著對參數設置如下：

節點分裂標準默認為gini系數（該參數值只是計算分裂標準的方式，不需要設置），節點劃分方式為best法，即為結合特征的優劣順序進行分類劃分，如果為了設置參數對比需要考慮，建議可對該參數值進行切換為random即隨機特征的優先順序，用於對比模型訓練效果。

節點分列最小樣本量默認為2即可，葉節點最小樣本量默認為1即可。需要註意的是：如果數據量較大時，建議將該2個參數值盡量大，以減少過擬合現象，但該2個參數值越大時通常訓練模型的擬合效果越差。具體應該以測試數據的擬合效果為準，因為訓練模型容易出現過擬合現象。樹最大深度這個參數時，其代表決策樹最多有幾層的意思，該參數值設置越大時，訓練模型擬合效果通常越好，但可能帶來過擬合情況，本案例出於演示需求，先設置為4層。（另提示：樹最大深度會受到節點分裂最小樣本量、葉節點最小樣本量的影響，並非設置為4它壹定就會為4）。

SPSSAU部分結果示例：

上一篇:靜物組合的原則有哪些

下一篇:容聯雲會退市嗎

變形金剛遊戲壹開始就是大黃蜂闖關的以前下過但裏面不是大黃蜂而是叫什麽浩劫戰士

月光婚禮