先介紹壹下oob的用法,其中(x,y)代表輸入樣本和標簽,g代表構造的樹。
上圖中,g2,g3,gt不用(xN,yN),所以g2,g3,gt可以用(xN,yN)作為驗證數據,然後用oob數據作為輸入,再輸入到模型中,然後投票,少數服從多數。類似地,對於(x1,y1),(x2,y2)等也存在相同的計算。,最終計算出判斷錯誤的樣本比例為oob-error。
所以oob可以用來衡量模型的好壞。
同時,隨機森林產出特征的重要性原理也可以推導出來。如果特征I對模型有利,那麽用隨機值代替I維特征會降低模型的性能,即會使oob-error更大。