回歸分析!!!!!!!!!!!!!

用SAS作回歸分析

SAS Institute (Shanghai) Co., Ltd.

(Regression Analysis)

變量的相關關系

散點圖是直觀地觀察連續變化變量間相依

關系的重要工具

Insight, Air 或 Iris 看散點圖陣

Insight: Analyze

Scatter plot(Y X)

或 Multivariate(Y's)

編程:proc gplot

Analyst: Graphs

Scatter plot

變量的相關關系

用直線描述

用曲線描述

可能有周期變化

無明顯關系

相關系數(Correlation Coef.)

線性聯系是描述變量聯系中最簡單和最常

用的壹種(Y=a1x1+a2x2+b)

相關系數是描述兩個變量間線性聯系程度

的統計指標

相關系數的計算公式:

Insight Iris 看散點圖與相關

相關系數(Correlation Coef.)

正相關:

壹個變量數值

增加時另壹個

變量也增加

負相關:

壹個變量數值

增加時另壹個

變量減少

相關系數(Correlation Coef.)

Insight: 置信橢圓

若變量有高度線性相關時相關系數接近 1

若變量有正相關時相關系數 > 0

若變量有負相關時相關系數 < 0

相關系數(Correlation Coef.)

強相關並不表示存在因果關系

弱相關並不表示變量間不存在關系

個別極端數據可能影響相關系數

相關系數的計算

SAS/INSIGHT

Analyze Multivariate (Y's)

Output Corr

在多變量分析窗中,由下拉菜單

Tables Corr

在散點圖上加置信橢圓認識相關大小

Curves Confidence Ellipse

Prediction: . . .

相關系數的計算

Analyst

Statistics Descriptive Correlations

散點圖與相關計算

Insight

散點圖: bclass

Y: W, X: H, sex:顏色

age: 符號, 放大

散點圖陣:cars

midprice,citympg,

egnsize,rpm,fueltnk,perform

旋轉圖:cars(iris)

perform, egnsize, idprice

相關系數:cars

midprice, citympg, hwympg, egnsize, rpm, perform

+ p-value

+置信橢圓

散點圖與相關計算

Analyst與編程

Analyst:

相關計算:fitness

Oxygen, rstpulse, runpulse, runtime

+options: p-value

+plots 散點圖+置信橢圓

編程:cars

p239 5變量相關

p241 nosimple noprob

with

相關系數的計算

Cor001 Class, Cor002 Fitness with, Cor003 Cars1 n不等

PROC CORR DATA=數據集名;

RUN;

PROC CORR DATA=數據集名;

var 變量名列;

with 變量名列;

partial 變量名列;

by 變量名列;

RUN;

相關與回歸

相關分析量化連續變化變量間線性相

關的強度

回歸分析確定壹個連續變量與另壹些

連續變量間的關系

回歸(Regression)

描述壹個變量與另壹些變量間統計聯系的關系式, Y=f(x1,x2,...,xm), 用於解釋和預測.

確定回歸:

確定變量:Y 與那些 x1, x2,. . , xm 有關

選擇形式:Y 與 x1, x2,. . , xm 以什麼形式

相聯系,即 f 的表示式

確定系數:確定 Y=a1x1+a2x1x2+a3x12+...

中的 ai

回歸的簡單線性模型

Yi = b0+b1xi+ei i=1,2,. . .,n

Yi: 因變量的第 i 次觀測值

xi: 自變量的第 i 次觀測值

b0,b1: 待估計的未知參數

ei: 余差(residual 相互獨立,正態分布,零均值,同方差)

壹般的:Yi=b0+b1x1i+b2x2i+. . .+bpxpi+ei

回歸的簡單線性模型

線性回歸的擬合

最小二乘法估計(LSE)

SAS/INSIGHT

擬合線性回歸

散點圖,擬合:Analyze Fit(X,Y)

Noint: 強制截距為零

下拉菜單:

Tables: 方程,參數,Anova

預測值計算:在數據表獨立變量欄鍵入數據

Curve:置信曲線 (ind., mean)

簡單線性回歸

Insight----Analyst

Insight: Cars:

Y:midprice, X:perform

解釋輸出結果

生成預測

加回歸和預測置信帶

shipment: Y:cost

noint

Analyst: Fitness:

Y:oxygen, X:runtime

+plot 散點圖+置信帶

shipment: noint

Y:cost, X: delay

回歸的方差分解

總變異

回歸闡明部分

回歸未闡明部分

回歸的方差分解

回歸的假設檢驗

原假設:簡單線性模型擬合數據不比基線

模型好

b1 = 0,

r = 0, |b1| 小,SS(Model) 小

備選假設:簡單線性模型擬合數據比基線

模型好

b1 ^= 0,

r ^= 0, |b1| 不為零,SS(Model) 大

回歸的方差分解

SS(Total)

= SS(error) + SS(Ind.-var) + SS(Const.)

預測值與置信限

回歸分析計算

Analyst

Analyst: Statistics Regression

Simple . . .

回歸分析計算

PROC REG DATA=數據集名;

MODEL 應變量=自變量;

RUN;

回歸分析計算

P: p,加預測值和余差

PROC REG DATA=數據集名;

MODEL 應變量=自變量;

RUN;

PROC REG DATA=數據集名;

MODEL 應變量=自變量名列/ p cli clm

noprint

noint ;

id=變量名;

output=數據集名關鍵統計量名=輸出名. . .;

RUN;

回歸分析計算

編程

P256 fitness oxy=runtime

p257 shipment noint

p258 fitness /p id

p259 計算預測值

p260 /cli

作圖

p261 reg oxy*runtime

p262 /conf95 pred95

p264-1 gplot I=rl

p264-2 I=rlclm95

p265 /overlay

P266 I=rl0clm

p267 bclass w*h=sex

變換為線性 Diamond

回歸分析計算

p180 最簡

p182 id /p

p182_1 加入新自變量預測

p183 /clm cli

p183_1 加入新自變量預測

p184 /noprint; plot

p184_1 graphics

Noint: Reg033 散點,

Reg034 擬合

Reg039_1 擬合圖,

Reg039_2 合壹

Reg039_3 擬合+置信

變換為線性 Diamond

回歸線作圖

PROC REG DATA=數據集名 graphics noprint;

MODEL 應變量=自變量/p cli clm r;

PLOT y變量*x變量/選項;

symbol n c=顏色 v=值;

RUN;

利用proc reg 中的graphics選項和 plot語句

可以繪制與擬合數據有關散點圖,回歸線

和置信曲線,預測區間曲線

graphics 高分辨圖,noprint 打印擬合數據

回歸線作圖

p185_1--4 散點,余差,CL散點,置信曲線

PROC REG DATA=數據集名 graphics noprint;

MODEL 應變量=自變量/p cli clm r;

PLOT y變量*x變量/選項;

symbol n c=顏色 v=值;

RUN;

y變量和x變量可以是應變量,

自變量和其它與回歸分析有關

的變量:

p.(predicted) 預測值

r. (residual) 余差

U95., L95. 預測值置信限

U95M.,L95M.預測均值置信限

選項:

conf 95

作預測均值置信曲線

pred95

作預測值置信曲線

overlay

將語句中規定的圖

叠置在壹幅圖上

AIC CP MSE SSE

在圖上顯示相應的統

計量

回歸線作圖

PROC GPLOT DATA=數據集;

PLOT 縱軸變量*橫軸變量;

RUN;

PROC GPLOT DATA=數據集;

PLOT 縱軸變量*橫軸變量縱軸變量*橫軸變量. . /

overlay;

symbol1 i=rlcli|rlclm 置信百分數其它圖形選項;

symbol2 i=rlcli|rlclm 置信百分數其它圖形選項;

RUN;

圖形選項: c= value= cv= height= font= Line=

width= interpol=r ci=

回歸線作圖

用Proc Reg 作圖

P185_1散點+擬合

P185_2 r. *runtime

P185_3 p. U95. . . .

P185_4 擬合及置信曲線

用 gplot:

p186 I, v, cv, h

p187 I, ci, w, l

p188 置信,clm cli /c

p189 overlay

Reg039_1--3 noint擬合與置信

p190 class 男女兩條線

多變量線性模型

觀測方程

Yi=b0+b1xi1+. . .+bpxip+ei, i=1,. . .,n

ei: 相互獨立,正態分布,同方差,零均值

最小二乘估計:

歸為b0 ,b1 ,. . .,bp 的壹個線性方程組

多變量線性模型

多變量線性模型可同時研究 Y 與多個獨立

變量 x1, x2,. . , xp 間的關系

對多變量模型進行解釋和選擇最優要比單

變量的模型復雜

在試驗結果的解釋,分析,預測等方面,

多變量線性模型是壹個有力的工具.

壹些變量間的非線性關系也可歸為多變量

線性模型(例多項式關系)

p276 Cars2 剔除hwympg, fueltnk 看citympg.rpm

多變量線性模型

平方和分解

Options: P,CLM,CLI

多變量線性模型的檢驗

在多變量回歸分析輸出的回歸參數的t -檢驗裏,都是假定其它相依變量進入回

歸的前提下檢驗該變量進入的顯著性.

若模型中有兩個變量有相關,在這壹檢驗

中兩者的顯著性都可被隱蔽起來.所以,

這壹檢驗結果必須小心分析.

刪除變量時,必須逐個刪除.並在刪除每

個變量後,註意觀測其它變量的p-值的

變化.

變量(模型)選擇

在回歸方程中,若遺漏了應加入的變量,

將使所有的回歸系數估計量產生偏差;

若加入了不該加入的變量,將加大所有

的回歸系數估計量的方差.

回歸分析中變量的選擇是要在獨立變量中

找出合適的子集,用以描述模型和進行

預報.

常用的有:全部可能回歸方法(更多的侯選模型)和逐步回歸法(節省計算資源).

變量選擇準則

(逐步回歸)

逐步回歸方式挑選有關的選項:

NONE:全部進入,不加選擇

FORWARD: 逐個加入

BACKWARD: 全部加入後逐個剔除

STEPWISE: 邊進邊出

MAXR:逐個加入和對換,使R2增加最大

MINR: 逐個加入和對換,使R2增加最小

變量選擇準則

(逐步回歸)

MAXR:開始加入使R2增加最大的變量

以後每壹步選擇模型內外變量進行對換,

選擇R2增加最大的對換

選擇加入壹個使R2增加最大的新變量

MAXR:開始加入使R2增加最小的變量

以後每壹步選擇模型內外變量進行對換,

選擇R2增加最小的對換

選擇加入壹個使R2增加最小的新變量

變量選擇準則

(全部回歸)

回歸分析計算

Analyst: Statistics Regression

Linear . .

變量選擇: Model

多變量回歸分析

Insight: Fitness

Y:midprice, X:其它7個數值變量

+ (copy) delete hwympg

dst.paper 多項式回歸

Y:strength amount**4

+I type tests

Analyst: Fitness

Y:Oxygen, X: age, maxp, rstp.,runp.,runtime weight

+ Model method f.

回歸分析計算--變量選擇

PROC REG DATA=數據集名;

MODEL 應變量=自變量名列/p cli clm r

noprint

selection= backward |forward| stepwise

rsquare |adjrsq|cp

slentry=0.50 slstay=0.10

best=個數 aic sbc rmse include=n ;

id=變量名;

output=數據集名關鍵統計量名=輸出名. . .;

RUN;

多變量回歸分析

變量選擇:Dst: Fitness

p282 oxy=age weight rstp maxp runp runt

p284 delete rstp

p285 /selection=stepwise

p288 /sel.= rsquare b

p289-1 /sel.=rsq. b

best=2

p289-2 /sel=cp adjrsq

多項回歸:paper

p290 streng.=amount**3

p291 glm 看檢驗4次

--------------------------

p191 全進; p192 delete

p193 backward forward (slstay=slentry=0.1)

p195 stepwize

p198 rsquare adjrsq cp

p199 best=2

擬合多項式模型

多項式函數是非線性函數中較為簡單的壹

類,它也可通過多元線性回歸來擬合

Y=b0+b1x+b2x2+b3x3+. . .

引入新變量 xi = xi

Y=b0+b1x1+b2x2+b3x3+. . .

INSIGHT提供簡便的方法擬合多項式並顯

示圖形

proc reg和proc glm都可用於擬合多項式

Insight dst.paper, Reg084_1--2 擬合及圖看SS1

I 型平方和

I型(Sequential)平方和記錄回歸變量逐個

進入回歸時,模型平方和的增加量

I 型平方和

I型平方和可轉化為F 統計量,用以對回歸模

型 Y=b0+b1x1+b2x2+b3x3+e 作如下的檢驗:

兩種平方和: SS1,SS2

因此,若進入回歸的變量有壹定的優先次序(如對多項式,線性項先二次項,二次項先於三次項等),應該用 I 型平方和及相應的F 統計量.若平等地考慮各個變量是否進入回歸,則可用 II 型平方和及其相應的F 統計量.

兩種平方和: SS1,SS2

Insight

Insight: Tables Type I(III) Tests

兩種平方和: SS1,SS2

多項式:Reg084_3 擬合 SS1 SS2

Analyst: Statistics Regression Linear . .

Statistics Statistics SS1 SS2

兩種平方和: SS1,SS2

PROC REG DATA=數據集名;

MODEL 因變量名列=自變量名列

OUTPUT OUT= 數據集名;

RUN;

PROC GLM

PROC GLM用最小二乘法擬合壹般的線性

模型,包括回歸分析,方差分析等

它與proc reg壹樣提供方差分析,參數估

計檢驗和兩類平方和

它提供關於兩類平方和的檢驗

擬合多項式回歸時不必預先生成變量的高

次項

它不提供回歸診斷的信息

PROC GLM

多項式: Reg094,084_4擬合. 圖reg097, reg098. 綜合:fish例

PROC GLM DATA=數據集名;

CLASS 變量名列;

MODEL 因變量名列=自變量名列

OUTPUT OUT= 數據集名;

RUN;

變量*變量*... 變量|變量|...

FIT(X,Y)

回歸診斷

例外值(outliers)或異常作用點的檢查

從已擬合回歸的數據中分析線性模型的假定是否被破壞:

應變量的均值是否是獨立變量的線性函數,是否

需要對變量進行變換或擬合曲線回歸

余差(residuals)是否同方差,不相關,正態分布

獨立變量間是否存在線性關系(僅多元有)

考察余差散點圖是進行回歸診斷的必要步驟

回歸診斷

Ascombe's 例

Ascombe's例

Insight: dst.ascombe

reg228編程作4圖合壹

reg228,1-4分別作圖

reg222,1-3編程分析

A:x1,y1, I:x1,y2,

O:x1,y3, H:x2,y4

回歸診斷

回歸分析的余差值是回歸診斷的重要工具

利用余差可以考察余差和預測值的散點圖

也可以檢驗余差分布的正態性

回歸診斷

模型合適

應改曲線模型

不等方差

觀測值不獨立

回歸診斷

生成余差

在INSIGHT中擬合回歸後在數據表中回自動

生成預測值,余差值和余差-預測散點圖

回歸診斷

生成余差

Analyst: Statistics Regression Linear . . .

Predictions預測值,余差值

回歸診斷

Insight: Cars

Var Std res., 找絕對值超過2者

var Cook's D 超過 4/92=0.04348

var Dffits 超過 2sqrt((k+1)/n)=0.58977

參數估計表中看vif

output+collinearity…看條件指數與方差比例

Analyst: Cars

+p.,r.,student to dst

+plot: std.*p.

+cookd > 0.0435,

dffits > 58977

+statisitcs tests

Collinearity, vif

回歸診斷

生成余差

在PROC REG的model語句加上選項 p,就會

輸出預測值和相應的余差

PROC REG DATA=數據集名 graphics ;

MODEL 應變量=自變量/p;

PLOT y變量*x變量/選項;

symbol n c=顏色 v=值;

RUN;

利用plot語句 plot r.*p. ; 就可得到余差-

預測散點圖

回歸診斷

識別異常觀測值

回歸診斷

識別異常觀測值

在PROC REG的model語句加上選項 r,就會

輸出與預測值和余差有關的壹些統計量.他

們可用於識別異常數據(outlier)及其影響

PROC REG DATA=數據集名 ;

MODEL 應變量=自變量/r;

RUN;

Predict Value 預測值

Std Err Predict 預測值標準差

Residual 余差

Std Err Predict 余差標準差

Student Residual student化的余差

-2 -1 0 1 2 余差顯著性圖

Cook's D Cook's D統計量

與余差有關的統計量

回歸診斷

余差分布正態性

有了余差的數據,就可對其運用圖形方法

或正式的分布正態性的檢驗

在INSIGHT中可直接對數據表中的預測余

差變量進行分析

在PROC REG可利用下列語句用圖形分析

余差分布正態性

PROC REG DATA=數據集名 graphics ;

MODEL 應變量=自變量;

PLOT nqq.*student.(nqq.*r.);

RUN;

回歸診斷

識別有影響的觀測

回歸診斷

識別有影響的觀測

Cook D統計量度量壹個觀測從分析中剔除

時參數估計值的變化

對壹個觀測值其 Cook D 統計量的值超

過 4/n 時(n為樣本容量),這個觀測存在

反常效應

SAS/INSIGHT 在下拉菜單選

Var Cook's D

回歸診斷

識別有影響的觀測

Dffitsi 度量第i 個觀測對預測值的影響

第i個觀測的預測值

用排除第i個觀測的回歸對第i個觀測的預測值

第i個觀測的預測值的標準差

p 為模型中參數的個數, n 為樣本容量

SAS/INSIGHT 在下拉菜單選Var Dffits

回歸診斷

識別有影響的觀測

Analyst: Statistics Regression Linear . . .

Save Data

回歸診斷

識別有影響的觀測

Proc REG 的 Model語句加選項 r 可獲得

Cook D 統計量

Proc REG 的 Model語句加選項 influence

可獲得 Dffits 等反映觀測值影響的統計量

PROC REG DATA=數據集名 ;

MODEL 應變量=自變量/r influence;

RUN;

回歸診斷

編程

Dst.cars

p311 /r

p312 output+ p. r. student.

p313 plot student.*p.

P314-1 /influence

p314-2 output cookd dffits

p315 /collin vif

選項 influence 生成的統計量

R022 Influence

回歸診斷

識別有影響的觀測

偏杠桿圖是使有影響觀測可視化的方法

偏杠桿圖是兩個回歸的散點圖

例如對變量 xr 的偏杠桿圖:

縱軸是Y關於除xr以外所有x的回歸的余差

橫軸是xr關於所有x的回歸的余差

有影響觀測通常分離與其它數據點或在某

壹軸上有極端數值

偏杠桿圖還可識別要加入哪些變量的高次項

回歸診斷

識別有影響的觀測

SAS/INSIGHT 在下拉菜單選

GraphsPartial Leverage

Proc REG 的 Model語句加選項partial 可

獲得杠桿圖(低分辨)

PROC REG DATA=數據集名 ;

MODEL 應變量=自變量/partial;

RUN;

回歸診斷

識別有影響的觀測

如何處理有影響的觀測

復驗數據,確認並無數據輸入錯誤發生

若數據是有效的,模型可能不合適.擬

合此數據可能需要使用高階模型

也可能數據是反常的

壹般,不剔除數據.某些有影響的觀測提

供重要的信息.要剔除數據,應給出必

要的描述和說明

回歸診斷

***線性診斷

***線性(collinearity, multicollinearity)問題是指

獨立變量間存在線性關系

變量間的線性關系會隱蔽變量的顯著性

也會增加參數估計的方差

產生不穩定的模型

只有擬合多元回歸才會發生這壹問題

***線性的診斷可使用方差膨脹因子,條件指數和方差比例

回歸診斷

***線性診斷-VIF

方差膨脹因子(VIF)是對由於***線性而引起的參數估計量的方差增加的壹個相對度

量

dst.cars2

Rr2 是Xr關於模型中其它獨立變量回歸的R2

壹般采用 VIF >10 表明存在***線性問題

INSIGHT在擬合回歸時自動生成VIF

Proc REG 的Model語句加選項 VIF

回歸診斷

***線性診斷-條件指數和方差比例

條件指數(condition index)和方差比例

(variance proportion)聯合使用可確認存在

線性關系的變量組

條件指數(hi=(lmax/li)1/2)

在10-30間為弱相關

在30-100間為中度相關

大於100表明有強相關

大的條件指數伴隨方差比例> 0.5 可確認有

***線性的獨立變量子集

INSIGHT在下拉菜單中選

TablesCollonearity Diagnostics

Proc REG: Model語句

加選項collin 或 collinoint

回歸分析計算

PROC REG DATA=數據集名 graphics noprint;

MODEL 應變量=自變量名列/p cli clm r vif

influence partial collin collinoint;

PLOT y變量*x變量/選項 . . .;

id=變量名;

output=數據集名關鍵統計量名=輸出名. . .;

RUN;

作圖變量:r., student., nqq., ...

回歸診斷

例外值(outliers)或異常作用點的檢查

從已擬合回歸的數據中分析線性模型的假定是否被破壞:

應變量的均值是否是獨立變量的線性函數,是否

需要對變量進行變換或擬合曲線回歸

余差(residuals)是否同方差,不相關,正態分布

獨立變量間是否存在線性關系(僅多元有)

考察余差散點圖是進行回歸診斷的必要步驟

Reg228,Reg228_1-228_4 Ascombe's 例

Lack -of -Fit 檢驗

若對於獨立變量有應變量的重復觀測值

則可將線性預測誤差平方和分解為純誤差

平方和與Lack-of-fit平方和,用以檢驗

擬合線性回歸是否合適

Lack -of -Fit 檢驗

上一篇:電視劇《鄭和下西洋》中朱瞻基是誰扮演的

下一篇:壹馬平川的意思

為什麽不了老版白狐影視

充滿想象力的電影《博物館奇妙夜》！當所有的歷史都“活過來”，會怎麽樣？

日本電影《機器人女友》的女主角是誰飾演的？