當前位置:編程學習大全網 - 編程語言 - 如何優化邏輯回歸

如何優化邏輯回歸

 第二步,變量準備。對模型效果提升非常非常重要!我指的是對變量的選擇和形式的變換。動態地根據模型的反饋來構造變量,可以貫穿整個建模過程。某名人說過花80%的時間不為過。

第三步,除了chi-square test和IV值還有變量相關性。相關性太嚴重會違背獨立假設,當然做預測的話違背可以原諒。但變量太多的時候***線性嚴重可能導致軟件報錯進行不下去(猜題主用的SAS)。此外business sense常常起決定性作用。比如客戶關系管理中,如果模型顯示年齡貢獻度很低,壹般還是會把它放進去。

第四步,檢驗的參數。

1) c統計量,ROC曲線以下的面積,也叫AUC(area under curve)。在應用較成熟的領域比如信用卡評分行業有稍微形成***識——大於或等於0.75——認為行為評分模型是可靠的。但針對marketing等其他領域的數據,這個閾值可以商榷。

2) Gini系數,可以同c統計量轉化,G=2c-1。

3) 提升圖(lift chart/gain table),其他名詞累積提升圖/洛侖茲曲線/收益曲線說的幾乎同壹種東西。通過和隨機選擇的效果比較模型好壞,隨機就是不用模型。如果對目標數據已經建好了壹小撮模型,可以畫不同模型的提升效果來比較選最佳。

4) ks,響應變量0-1的曲線對比,二者之差畫條線就是ks曲線。它的意義是模型把0和1區分開的能力。又比如marketing,前25%的人是預測的響應客戶群,對這壹群體進行精準營銷既有效果又省成本。20~40參考壹下就行。

最後,模型和參數實際意義還是要想想吧。很多人覺得logistic regression太簡單,卻連解釋都不做,只壹味看參數。看看出來的odds ratio和probability,既能給大眾解釋又不忘建模初衷。

  • 上一篇:求java學習路線圖?
  • 下一篇:新手怎麽樣學好和運用C++語言
  • copyright 2024編程學習大全網