當前位置:編程學習大全網 - 遊戲軟體 - 機器學習系列 - 4 線性回歸算法

機器學習系列 - 4 線性回歸算法

1. 簡單線性回歸:

1.1 損失函數:

在機器學習中,所有的算法模型其實都依賴於 最小化或最大化某壹個函數 ,我們稱之為“ 目標函數 ”。

最小化的這組函數被稱為“損失函數”。什麽是損失函數呢?

常用損失函數有:

0-1損失函數:用來表述分類問題,當預測分類錯誤時,損失函數值為1,正確為0

平方損失函數:用來描述回歸問題,用來表示連續性變量,為預測值與真實值差值的平方。(誤差值越大、懲罰力度越強,也就是對差值敏感)

絕對損失函數:用在回歸模型,用距離的絕對值來衡量

對數損失函數:是預測值Y和條件概率之間的衡量。事實上,該損失函數用到了極大似然估計的思想。P(Y|X)通俗的解釋就是:在當前模型的基礎上,對於樣本X,其預測值為Y,也就是預測正確的概率。由於概率之間的同時滿足需要使用乘法,為了將其轉化為加法,我們將其取對數。最後由於是損失函數,所以預測正確的概率越高,其損失值應該是越小,因此再加個負號取個反。

1.2 期望風險:

期望風險是損失函數的期望。用來表達理論上 模型f(X)關於聯合分布P(X,Y)的平均意義下的損失 。又叫 期望損失/風險函數 。

1.3 經驗風險:

模型f(X)關於訓練數據集的平均損失,稱為經驗風險或經驗損失 。

1.4 經驗風險最小化和結構風險最小化

期望風險是模型關於聯合分布的期望損失,經驗風險是模型關於訓練樣本數據集的平均損失。根據大數定律, 當樣本容量N趨於無窮時,經驗風險趨於期望風險。

結構風險最小化:當樣本容量不大的時候,經驗風險最小化容易產生“過擬合”的問題,為了“減緩”過擬合問題,提出了結構風險最小理論。結構風險最小化為經驗風險與復雜度同時較小

1.5 小結

1、損失函數:單個樣本預測值和真實值之間誤差的程度。

2、期望風險:是損失函數的期望,理論上模型f(X)關於聯合分布P(X,Y)的平均意義下的損失。

3、經驗風險:模型關於訓練集的平均損失(每個樣本的損失加起來,然後平均壹下)。

4、結構風險:在經驗風險上加上壹個正則化項,防止過擬合的策略。

1.2 最小二乘法:

對於測量值來說,讓總的誤差的平方最小的就是真實值。這是基於,如果誤差是隨機的,應該圍繞真值上下波動。

1.2.1 線性回歸中的應用

目標是,找到a和b,使得損失函數:J(a,b) =? 盡可能的小。

最終我們通過最小二乘法得到a,b的表達式:

a? =?

b =?

2.多元線性回歸:

對於多元線性回歸,由於有多個特征值。所以要學習到N+1個參數,就能求出多元線性回歸預測值。

但是這種樸素的計算方法,缺點是時間復雜度較高:O(n^3),在特征比較多的時候,計算量很大。優點是不需要對數據進行歸壹化處理,原始數據進行計算參數,不存在量綱的問題(多元線性沒必要做歸壹化處理)

  • 上一篇:手機puk碼忘記了怎麽解鎖?
  • 下一篇:市面上有哪些比較火的美甲風格?
  • copyright 2024編程學習大全網