logisticregression 預測值全為0怎麽調參數

參數說明如下：

penalty：懲罰項，str類型，可選參數為l1和l2，默認為l2。用於指定懲罰項中使用的規範。newton-cg、sag和lbfgs求解算法只支持L2規範。L1G規範假設的是模型的參數滿足拉普拉斯分布，L2假設的模型參數滿足高斯分布，所謂的範式就是加上對參數的約束，使得模型更不會過擬合(overfit)，但是如果要說是不是加了約束就會好，這個沒有人能回答，只能說，加約束的情況下，理論上應該可以獲得泛化能力更強的結果。

dual：對偶或原始方法，bool類型，默認為False。對偶方法只用在求解線性多核(liblinear)的L2懲罰項上。當樣本數量>樣本特征的時候，dual通常設置為False。

tol：停止求解的標準，float類型，默認為1e-4。就是求解到多少的時候，停止，認為已經求出最優解。

c：正則化系數λ的倒數，float類型，默認為1.0。必須是正浮點型數。像SVM壹樣，越小的數值表示越強的正則化。

fit_intercept：是否存在截距或偏差，bool類型，默認為True。

intercept_scaling：僅在正則化項為”liblinear”，且fit_intercept設置為True時有用。float類型，默認為1。

class_weight：用於標示分類模型中各種類型的權重，可以是壹個字典或者’balanced’字符串，默認為不輸入，也就是不考慮權重，即為None。如果選擇輸入的話，可以選擇balanced讓類庫自己計算類型權重，或者自己輸入各個類型的權重。舉個例子，比如對於0,1的二元模型，我們可以定義class_weight={0:0.9,1:0.1}，這樣類型0的權重為90%，而類型1的權重為10%。如果class_weight選擇balanced，那麽類庫會根據訓練樣本量來計算權重。某種類型樣本量越多，則權重越低，樣本量越少，則權重越高。當class_weight為balanced時，類權重計算方法如下：n_samples / (n_classes * np.bincount(y))。n_samples為樣本數，n_classes為類別數量，np.bincount(y)會輸出每個類的樣本數，例如y=[1,0,0,1,1],則np.bincount(y)=[2,3]。

那麽class_weight有什麽作用呢？

在分類模型中，我們經常會遇到兩類問題：

第壹種是誤分類的代價很高。比如對合法用戶和非法用戶進行分類，將非法用戶分類為合法用戶的代價很高，我們寧願將合法用戶分類為非法用戶，這時可以人工再甄別，但是卻不願將非法用戶分類為合法用戶。這時，我們可以適當提高非法用戶的權重。

第二種是樣本是高度失衡的，比如我們有合法用戶和非法用戶的二元樣本數據10000條，裏面合法用戶有9995條，非法用戶只有5條，如果我們不考慮權重，則我們可以將所有的測試集都預測為合法用戶，這樣預測準確率理論上有99.95%，但是卻沒有任何意義。這時，我們可以選擇balanced，讓類庫自動提高非法用戶樣本的權重。提高了某種分類的權重，相比不考慮權重，會有更多的樣本分類劃分到高權重的類別，從而可以解決上面兩類問題。

random_state：隨機數種子，int類型，可選參數，默認為無，僅在正則化優化算法為sag,liblinear時有用。

solver：優化算法選擇參數，只有五個可選參數，即newton-cg,lbfgs,liblinear,sag,saga。默認為liblinear。solver參數決定了我們對邏輯回歸損失函數的優化方法，有四種算法可以選擇，分別是：

liblinear：使用了開源的liblinear庫實現，內部使用了坐標軸下降法來叠代優化損失函數。

lbfgs：擬牛頓法的壹種，利用損失函數二階導數矩陣即海森矩陣來叠代優化損失函數。

newton-cg：也是牛頓法家族的壹種，利用損失函數二階導數矩陣即海森矩陣來叠代優化損失函數。

sag：即隨機平均梯度下降，是梯度下降法的變種，和普通梯度下降法的區別是每次叠代僅僅用壹部分的樣本來計算梯度，適合於樣本數據多的時候。

saga：線性收斂的隨機優化算法的的變重。

總結：

liblinear適用於小數據集，而sag和saga適用於大數據集因為速度更快。

對於多分類問題，只有newton-cg,sag,saga和lbfgs能夠處理多項損失，而liblinear受限於壹對剩余(OvR)。啥意思，就是用liblinear的時候，如果是多分類問題，得先把壹種類別作為壹個類別，剩余的所有類別作為另外壹個類別。壹次類推，遍歷所有類別，進行分類。

newton-cg,sag和lbfgs這三種優化算法時都需要損失函數的壹階或者二階連續導數，因此不能用於沒有連續導數的L1正則化，只能用於L2正則化。而liblinear和saga通吃L1正則化和L2正則化。

同時，sag每次僅僅使用了部分樣本進行梯度叠代，所以當樣本量少的時候不要選擇它，而如果樣本量非常大，比如大於10萬，sag是第壹選擇。但是sag不能用於L1正則化，所以當妳有大量的樣本，又需要L1正則化的話就要自己做取舍了。要麽通過對樣本采樣來降低樣本量，要麽回到L2正則化。

從上面的描述，大家可能覺得，既然newton-cg, lbfgs和sag這麽多限制，如果不是大樣本，我們選擇liblinear不就行了嘛！錯，因為liblinear也有自己的弱點！我們知道，邏輯回歸有二元邏輯回歸和多元邏輯回歸。對於多元邏輯回歸常見的有one-vs-rest(OvR)和many-vs-many(MvM)兩種。而MvM壹般比OvR分類相對準確壹些。郁悶的是liblinear只支持OvR，不支持MvM，這樣如果我們需要相對精確的多元邏輯回歸時，就不能選擇liblinear了。也意味著如果我們需要相對精確的多元邏輯回歸不能使用L1正則化了。

max_iter：算法收斂最大叠代次數，int類型，默認為10。僅在正則化優化算法為newton-cg, sag和lbfgs才有用，算法收斂的最大叠代次數。

multi_class：分類方式選擇參數，str類型，可選參數為ovr和multinomial，默認為ovr。ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元邏輯回歸，ovr和multinomial並沒有任何區別，區別主要在多元邏輯回歸上。

OvR和MvM有什麽不同*？*

OvR的思想很簡單，無論妳是多少元邏輯回歸，我們都可以看做二元邏輯回歸。具體做法是，對於第K類的分類決策，我們把所有第K類的樣本作為正例，除了第K類樣本以外的所有樣本都作為負例，然後在上面做二元邏輯回歸，得到第K類的分類模型。其他類的分類模型獲得以此類推。

而MvM則相對復雜，這裏舉MvM的特例one-vs-one(OvO)作講解。如果模型有T類，我們每次在所有的T類樣本裏面選擇兩類樣本出來，不妨記為T1類和T2類，把所有的輸出為T1和T2的樣本放在壹起，把T1作為正例，T2作為負例，進行二元邏輯回歸，得到模型參數。我們壹***需要T(T-1)/2次分類。

可以看出OvR相對簡單，但分類效果相對略差（這裏指大多數樣本分布情況，某些樣本分布下OvR可能更好）。而MvM分類相對精確，但是分類速度沒有OvR快。如果選擇了ovr，則4種損失函數的優化方法liblinear，newton-cg,lbfgs和sag都可以選擇。但是如果選擇了multinomial,則只能選擇newton-cg, lbfgs和sag了。

verbose：日誌冗長度，int類型。默認為0。就是不輸出訓練過程，1的時候偶爾輸出結果，大於1，對於每個子模型都輸出。

warm_start：熱啟動參數，bool類型。默認為False。如果為True，則下壹次訓練是以追加樹的形式進行（重新使用上壹次的調用作為初始化）。

n_jobs：並行數。int類型，默認為1。1的時候，用CPU的壹個內核運行程序，2的時候，用CPU的2個內核運行程序。為-1的時候，用所有CPU的內核運行程序。

總結：

優點：實現簡單，易於理解和實現；計算代價不高，速度很快，存儲資源低。

缺點：容易欠擬合，分類精度可能不高。

其他：

Logistic回歸的目的是尋找壹個非線性函數Sigmoid的最佳擬合參數，求解過程可以由最優化算法完成。

改進的壹些最優化算法，比如sag。它可以在新數據到來時就完成參數更新，而不需要重新讀取整個數據集來進行批量處理。

機器學習的壹個重要問題就是如何處理缺失數據。這個問題沒有標準答案，取決於實際應用中的需求。現有壹些解決方案，每種方案都各有優缺點。

我們需要根據數據的情況，這是Sklearn的參數，以期達到更好的分類效果。

上一篇:易語言制作手機給電腦發送郵件指令使電腦自動關機的程序