如何用python實現隨機森林分類

大家如何使用scikit-learn包中的類方法來進行隨機森林算法的預測。其中講的比較好的是各個參數的具體用途。

這裏我給出我的理解和部分翻譯：

參數說明：

最主要的兩個參數是n_estimators和max_features。

n_estimators：表示森林裏樹的個數。理論上是越大越好。但是伴隨著就是計算時間的增長。但是並不是取得越大就會越好，預測效果最好的將會出現在合理的樹個數。

max_features：隨機選擇特征集合的子集合，並用來分割節點。子集合的個數越少，方差就會減少的越快，但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則：

max_features＝n_features，如果是分類問題則max_features＝sqrt(n_features)。

如果想獲取較好的結果，必須將max_depth＝None,同時min_sample_split=1。

同時還要記得進行cross_validated（交叉驗證），除此之外記得在random forest中，bootstrap=True。但在extra-trees中，bootstrap=False。

這裏也給出壹篇老外寫的文章：調整妳的隨機森林模型參數/blog/2015/06/tuning-random-forest-model/　

這裏我使用了scikit-learn自帶的iris數據來進行隨機森林的預測：

[python]?view plain?copy

from?sklearn.tree?import?DecisionTreeRegressor?

from?sklearn.ensemble?import?RandomForestRegressor?

import?numpy?as?np?

from?sklearn.datasets?import?load_iris?

iris=load_iris()?

#print?iris#iris的4個屬性是：萼片寬度　萼片長度　花瓣寬度　花瓣長度　標簽是花的種類：setosa?versicolour?virginica?

print?iris['target'].shape?

rf=RandomForestRegressor()#這裏使用了默認的參數設置?

rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓練?

#隨機挑選兩個預測不相同的樣本?

instance=iris.data[[100,109]]?

print?instance?

print?'instance?0?prediction；',rf.predict(instance[0])?

print?'instance?1?prediction；',rf.predict(instance[1])?

print?iris.target[100],iris.target[109]?

返回的結果如下：

(150,)

[[ 6.3 ?3.3 ?6. ? 2.5]

[ 7.2 ?3.6 ?6.1 ?2.5]]

instance 0 prediction； [ 2.]

instance 1 prediction； [ 2.]

2 2

在這裏我有點困惑，就是在scikit-learn算法包中隨機森林實際上就是壹顆顆決策樹組成的。但是之前我寫的決策樹博客中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內部的決策樹結構，甚至連父節點的選擇特征都不知道是誰。所以我給出下面的代碼（這代碼不是我的原創），可以顯示的顯示出所有的特征的貢獻。所以對於貢獻不大的，甚至是負貢獻的我們可以考慮刪除這壹列的特征值，避免做無用的分類。

[python]?view plain?copy

from?sklearn.cross_validation?import?cross_val_score,?ShuffleSplit?

X?=?iris["data"]?

Y?=?iris["target"]?

names?=?iris["feature_names"]?

rf?=?RandomForestRegressor()?

scores?=?[]?

for?i?in?range(X.shape[1]):?

score?=?cross_val_score(rf,?X[:,?i:i+1],?Y,?scoring="r2",?

cv=ShuffleSplit(len(X),?3,?.3))?

scores.append((round(np.mean(score),?3),?names[i]))?

print?sorted(scores,?reverse=True)?