SAS Institute (Shanghai) Co., Ltd.
(Regression Analysis)
變量的相關關系
散點圖是直觀地觀察連續變化變量間相依
關系的重要工具
Insight, Air 或 Iris 看散點圖陣
Insight: Analyze
Scatter plot(Y X)
或 Multivariate(Y's)
編程:proc gplot
Analyst: Graphs
Scatter plot
變量的相關關系
用直線描述
用曲線描述
可能有周期變化
無明顯關系
相關系數(Correlation Coef.)
線性聯系是描述變量聯系中最簡單和最常
用的壹種(Y=a1x1+a2x2+b)
相關系數是描述兩個變量間線性聯系程度
的統計指標
相關系數的計算公式:
Insight Iris 看散點圖與相關
相關系數(Correlation Coef.)
正相關:
壹個變量數值
增加時另壹個
變量也增加
負相關:
壹個變量數值
增加時另壹個
變量減少
相關系數(Correlation Coef.)
Insight: 置信橢圓
若變量有高度線性相關時相關系數接近 1
若變量有正相關時相關系數 > 0
若變量有負相關時相關系數 < 0
相關系數(Correlation Coef.)
強相關並不表示存在因果關系
弱相關並不表示變量間不存在關系
個別極端數據可能影響相關系數
相關系數的計算
SAS/INSIGHT
Analyze Multivariate (Y's)
Output Corr
在多變量分析窗中,由下拉菜單
Tables Corr
在散點圖上加置信橢圓認識相關大小
Curves Confidence Ellipse
Prediction: . . .
相關系數的計算
Analyst
Statistics Descriptive Correlations
散點圖與相關計算
Insight
散點圖: bclass
Y: W, X: H, sex:顏色
age: 符號, 放大
散點圖陣:cars
midprice,citympg,
egnsize,rpm,fueltnk,perform
旋轉圖:cars(iris)
perform, egnsize, idprice
相關系數:cars
midprice, citympg, hwympg, egnsize, rpm, perform
+ p-value
+置信橢圓
散點圖與相關計算
Analyst與編程
Analyst:
相關計算:fitness
Oxygen, rstpulse, runpulse, runtime
+options: p-value
+plots 散點圖+置信橢圓
編程:cars
p239 5變量相關
p241 nosimple noprob
with
相關系數的計算
Cor001 Class, Cor002 Fitness with, Cor003 Cars1 n不等
PROC CORR DATA=數據集名;
RUN;
PROC CORR DATA=數據集名;
var 變量名列;
with 變量名列;
partial 變量名列;
by 變量名列;
RUN;
相關與回歸
相關分析量化連續變化變量間線性相
關的強度
回歸分析確定壹個連續變量與另壹些
連續變量間的關系
回歸(Regression)
描述壹個變量與另壹些變量間統計聯系的關系式, Y=f(x1,x2,...,xm), 用於解釋和預測.
確定回歸:
確定變量:Y 與那些 x1, x2,. . , xm 有關
選擇形式:Y 與 x1, x2,. . , xm 以什麼形式
相聯系,即 f 的表示式
確定系數:確定 Y=a1x1+a2x1x2+a3x12+...
中的 ai
回歸的簡單線性模型
Yi = b0+b1xi+ei i=1,2,. . .,n
Yi: 因變量的第 i 次觀測值
xi: 自變量的第 i 次觀測值
b0,b1: 待估計的未知參數
ei: 余差(residual 相互獨立,正態分布,零均值,同方差)
壹般的:Yi=b0+b1x1i+b2x2i+. . .+bpxpi+ei
回歸的簡單線性模型
回歸的簡單線性模型
線性回歸的擬合
最小二乘法估計(LSE)
SAS/INSIGHT
擬合線性回歸
散點圖,擬合:Analyze Fit(X,Y)
Noint: 強制截距為零
下拉菜單:
Tables: 方程,參數,Anova
預測值計算:在數據表獨立變量欄鍵入數據
Curve:置信曲線 (ind., mean)
簡單線性回歸
Insight----Analyst
Insight: Cars:
Y:midprice, X:perform
解釋輸出結果
生成預測
加回歸和預測置信帶
shipment: Y:cost
noint
Analyst: Fitness:
Y:oxygen, X:runtime
+plot 散點圖+置信帶
shipment: noint
Y:cost, X: delay
回歸的方差分解
總變異
回歸闡明部分
回歸未闡明部分
回歸的方差分解
.
.
.
.
回歸的方差分解
回歸的假設檢驗
原假設:簡單線性模型擬合數據不比基線
模型好
b1 = 0,
r = 0, |b1| 小,SS(Model) 小
備選假設:簡單線性模型擬合數據比基線
模型好
b1 ^= 0,
r ^= 0, |b1| 不為零,SS(Model) 大
回歸的方差分解
SS(Total)
= SS(error) + SS(Ind.-var) + SS(Const.)
預測值與置信限
回歸分析計算
Analyst
Analyst: Statistics Regression
Simple . . .
回歸分析計算
PROC REG DATA=數據集名;
MODEL 應變量=自變量;
RUN;
回歸分析計算
P: p,加預測值和余差
PROC REG DATA=數據集名;
MODEL 應變量=自變量;
RUN;
PROC REG DATA=數據集名;
MODEL 應變量=自變量名列/ p cli clm
noprint
noint ;
id=變量名;
output=數據集名 關鍵統計量名=輸出名. . .;
RUN;
回歸分析計算
編程
P256 fitness oxy=runtime
p257 shipment noint
p258 fitness /p id
p259 計算預測值
p260 /cli
作圖
p261 reg oxy*runtime
p262 /conf95 pred95
p264-1 gplot I=rl
p264-2 I=rlclm95
p265 /overlay
P266 I=rl0clm
p267 bclass w*h=sex
變換為線性 Diamond
回歸分析計算
p180 最簡
p182 id /p
p182_1 加入新自變量預測
p183 /clm cli
p183_1 加入新自變量預測
p184 /noprint; plot
p184_1 graphics
Noint: Reg033 散點,
Reg034 擬合
Reg039_1 擬合圖,
Reg039_2 合壹
Reg039_3 擬合+置信
變換為線性 Diamond
回歸線作圖
PROC REG DATA=數據集名 graphics noprint;
MODEL 應變量=自變量/p cli clm r;
PLOT y變量*x變量/選項;
symbol n c=顏色 v=值;
RUN;
利用proc reg 中的graphics選項和 plot語句
可以繪制與擬合數據有關散點圖,回歸線
和置信曲線,預測區間曲線
graphics 高分辨圖,noprint 打印擬合數據
回歸線作圖
p185_1--4 散點,余差,CL散點,置信曲線
PROC REG DATA=數據集名 graphics noprint;
MODEL 應變量=自變量/p cli clm r;
PLOT y變量*x變量/選項;
symbol n c=顏色 v=值;
RUN;
y變量和x變量可以是應變量,
自變量和其它與回歸分析有關
的變量:
p.(predicted) 預測值
r. (residual) 余差
U95., L95. 預測值置信限
U95M.,L95M.預測均值置信限
選項:
conf 95
作預測均值置信曲線
pred95
作預測值置信曲線
overlay
將語句中規定的圖
叠置在壹幅圖上
AIC CP MSE SSE
在圖上顯示相應的統
計量
回歸線作圖
P
PROC GPLOT DATA=數據集;
PLOT 縱軸變量*橫軸變量;
RUN;
PROC GPLOT DATA=數據集;
PLOT 縱軸變量*橫軸變量 縱軸變量*橫軸變量. . /
overlay;
symbol1 i=rlcli|rlclm 置信百分數 其它圖形選項;
symbol2 i=rlcli|rlclm 置信百分數 其它圖形選項;
RUN;
圖形選項: c= value= cv= height= font= Line=
width= interpol=r ci=
回歸線作圖
用Proc Reg 作圖
P185_1散點+擬合
P185_2 r. *runtime
P185_3 p. U95. . . .
P185_4 擬合及置信曲線
用 gplot:
p186 I, v, cv, h
p187 I, ci, w, l
p188 置信,clm cli /c
p189 overlay
Reg039_1--3 noint擬合與置信
p190 class 男女兩條線
多變量線性模型
觀測方程
Yi=b0+b1xi1+. . .+bpxip+ei, i=1,. . .,n
ei: 相互獨立,正態分布,同方差,零均值
最小二乘估計:
歸為b0 ,b1 ,. . .,bp 的壹個線性方程組
多變量線性模型
多變量線性模型可同時研究 Y 與多個獨立
變量 x1, x2,. . , xp 間的關系
對多變量模型進行解釋和選擇最優要比單
變量的模型復雜
在試驗結果的解釋,分析,預測等方面,
多變量線性模型是壹個有力的工具.
壹些變量間的非線性關系也可歸為多變量
線性模型(例多項式關系)
p276 Cars2 剔除hwympg, fueltnk 看citympg.rpm
多變量線性模型
平方和分解
Options: P,CLM,CLI
多變量線性模型的檢驗
在多變量回歸分析輸出的回歸參數的t -檢驗裏,都是假定其它相依變量進入回
歸的前提下檢驗該變量進入的顯著性.
若模型中有兩個變量有相關,在這壹檢驗
中兩者的顯著性都可被隱蔽起來.所以,
這壹檢驗結果必須小心分析.
刪除變量時,必須逐個刪除.並在刪除每
個變量後,註意觀測其它變量的p-值的
變化.
變量(模型)選擇
在回歸方程中,若遺漏了應加入的變量,
將使所有的回歸系數估計量產生偏差;
若加入了不該加入的變量,將加大所有
的回歸系數估計量的方差.
回歸分析中變量的選擇是要在獨立變量中
找出合適的子集,用以描述模型和進行
預報.
常用的有:全部可能回歸方法(更多的侯選模型)和逐步回歸法(節省計算資源).
變量選擇準則
(逐步回歸)
逐步回歸方式挑選有關的選項:
NONE:全部進入,不加選擇
FORWARD: 逐個加入
BACKWARD: 全部加入後逐個剔除
STEPWISE: 邊進邊出
MAXR:逐個加入和對換,使R2增加最大
MINR: 逐個加入和對換,使R2增加最小
變量選擇準則
(逐步回歸)
MAXR:開始加入使R2增加最大的變量
以後每壹步選擇模型內外變量進行對換,
選擇R2增加最大的對換
選擇加入壹個使R2增加最大的新變量
MAXR:開始加入使R2增加最小的變量
以後每壹步選擇模型內外變量進行對換,
選擇R2增加最小的對換
選擇加入壹個使R2增加最小的新變量
變量選擇準則
(全部回歸)
回歸分析計算
Analyst: Statistics Regression
Linear . .
變量選擇: Model
多變量回歸分析
Insight: Fitness
Y:midprice, X:其它7個數值變量
+ (copy) delete hwympg
dst.paper 多項式回歸
Y:strength amount**4
+I type tests
Analyst: Fitness
Y:Oxygen, X: age, maxp, rstp.,runp.,runtime weight
+ Model method f.
回歸分析計算--變量選擇
PROC REG DATA=數據集名;
MODEL 應變量=自變量名列/p cli clm r
noprint
selection= backward |forward| stepwise
rsquare |adjrsq|cp
slentry=0.50 slstay=0.10
best=個數 aic sbc rmse include=n ;
id=變量名;
output=數據集名 關鍵統計量名=輸出名. . .;
RUN;
P
多變量回歸分析
變量選擇:Dst: Fitness
p282 oxy=age weight rstp maxp runp runt
p284 delete rstp
p285 /selection=stepwise
p288 /sel.= rsquare b
p289-1 /sel.=rsq. b
best=2
p289-2 /sel=cp adjrsq
多項回歸:paper
p290 streng.=amount**3
p291 glm 看檢驗4次
--------------------------
p191 全進; p192 delete
p193 backward forward (slstay=slentry=0.1)
p195 stepwize
p198 rsquare adjrsq cp
p199 best=2
擬合多項式模型
多項式函數是非線性函數中較為簡單的壹
類,它也可通過多元線性回歸來擬合
Y=b0+b1x+b2x2+b3x3+. . .
引入新變量 xi = xi
Y=b0+b1x1+b2x2+b3x3+. . .
INSIGHT提供簡便的方法擬合多項式並顯
示圖形
proc reg和proc glm都可用於擬合多項式
Insight dst.paper, Reg084_1--2 擬合及圖 看SS1
I 型平方和
I型(Sequential)平方和記錄回歸變量逐個
進入回歸時,模型平方和的增加量
I 型平方和
I型平方和可轉化為F 統計量,用以對回歸模
型 Y=b0+b1x1+b2x2+b3x3+e 作如下的檢驗:
兩種平方和: SS1,SS2
兩種平方和: SS1,SS2
因此,若進入回歸的變量有壹定的優先次序(如對多項式,線性項先二次項,二次項先於三次項等),應該用 I 型平方和及相應的F 統計量.若平等地考慮各個變量是否進入回歸,則可用 II 型平方和及其相應的F 統計量.
兩種平方和: SS1,SS2
Insight
Insight: Tables Type I(III) Tests
兩種平方和: SS1,SS2
多項式:Reg084_3 擬合 SS1 SS2
Analyst: Statistics Regression Linear . .
Statistics Statistics SS1 SS2
兩種平方和: SS1,SS2
PROC REG DATA=數據集名;
MODEL 因變量名列=自變量名列
OUTPUT OUT= 數據集名;
RUN;
PROC GLM
PROC GLM用最小二乘法擬合壹般的線性
模型,包括回歸分析,方差分析等
它與proc reg壹樣提供方差分析,參數估
計檢驗和兩類平方和
它提供關於兩類平方和的檢驗
擬合多項式回歸時不必預先生成變量的高
次項
它不提供回歸診斷的信息
PROC GLM
多項式: Reg094,084_4擬合. 圖reg097, reg098. 綜合:fish例
PROC GLM DATA=數據集名;
CLASS 變量名列;
MODEL 因變量名列=自變量名列
OUTPUT OUT= 數據集名;
RUN;
變量*變量*... 變量|變量|...
FIT(X,Y)
回歸診斷
例外值(outliers)或異常作用點的檢查
從已擬合回歸的數據中分析線性模型的假定是否被破壞:
應變量的均值是否是獨立變量的線性函數,是否
需要對變量進行變換或擬合曲線回歸
余差(residuals)是否同方差,不相關,正態分布
獨立變量間是否存在線性關系(僅多元有)
考察余差散點圖是進行回歸診斷的必要步驟
回歸診斷
回歸診斷
Ascombe's 例
Ascombe's例
Insight: dst.ascombe
reg228編程作4圖合壹
reg228,1-4分別作圖
reg222,1-3編程分析
A:x1,y1, I:x1,y2,
O:x1,y3, H:x2,y4
回歸診斷
回歸分析的余差值是回歸診斷的重要工具
利用余差可以考察余差和預測值的散點圖
也可以檢驗余差分布的正態性
回歸診斷
模型合適
應改曲線模型
不等方差
觀測值不獨立
回歸診斷
生成余差
在INSIGHT中擬合回歸後在數據表中回自動
生成預測值,余差值和余差-預測散點圖
回歸診斷
生成余差
Analyst: Statistics Regression Linear . . .
Predictions預測值,余差值
回歸診斷
Insight: Cars
Var Std res., 找絕對值超過2者
var Cook's D 超過 4/92=0.04348
var Dffits 超過 2sqrt((k+1)/n)=0.58977
參數估計表中看vif
output+collinearity…看條件指數與方差比例
Analyst: Cars
+p.,r.,student to dst
+plot: std.*p.
+cookd > 0.0435,
dffits > 58977
+statisitcs tests
Collinearity, vif
回歸診斷
生成余差
在PROC REG的model語句加上選項 p,就會
輸出預測值和相應的余差
PROC REG DATA=數據集名 graphics ;
MODEL 應變量=自變量/p;
PLOT y變量*x變量/選項;
symbol n c=顏色 v=值;
RUN;
利用plot語句 plot r.*p. ; 就可得到余差-
預測散點圖
回歸診斷
識別異常觀測值
回歸診斷
識別異常觀測值
在PROC REG的model語句加上選項 r,就會
輸出與預測值和余差有關的壹些統計量.他
們可用於識別異常數據(outlier)及其影響
PROC REG DATA=數據集名 ;
MODEL 應變量=自變量/r;
RUN;
Predict Value 預測值
Std Err Predict 預測值標準差
Residual 余差
Std Err Predict 余差標準差
Student Residual student化的余差
-2 -1 0 1 2 余差顯著性圖
Cook's D Cook's D統計量
與余差有關的統計量
回歸診斷
余差分布正態性
有了余差的數據,就可對其運用圖形方法
或正式的分布正態性的檢驗
在INSIGHT中可直接對數據表中的預測余
差變量進行分析
在PROC REG可利用下列語句用圖形分析
余差分布正態性
PROC REG DATA=數據集名 graphics ;
MODEL 應變量=自變量;
PLOT nqq.*student.(nqq.*r.);
RUN;
回歸診斷
識別有影響的觀測
回歸診斷
識別有影響的觀測
Cook D統計量度量壹個觀測從分析中剔除
時參數估計值的變化
對壹個觀測值其 Cook D 統計量的值超
過 4/n 時(n為樣本容量),這個觀測存在
反常效應
SAS/INSIGHT 在下拉菜單選
Var Cook's D
回歸診斷
識別有影響的觀測
Dffitsi 度量第i 個觀測對預測值的影響
第i個觀測的預測值
用排除第i個觀測的回歸對第i個觀測的預測值
第i個觀測的預測值的標準差
p 為模型中參數的個數, n 為樣本容量
SAS/INSIGHT 在下拉菜單選Var Dffits
回歸診斷
識別有影響的觀測
Analyst: Statistics Regression Linear . . .
Save Data
回歸診斷
識別有影響的觀測
Proc REG 的 Model語句加選項 r 可獲得
Cook D 統計量
Proc REG 的 Model語句加選項 influence
可獲得 Dffits 等反映觀測值影響的統計量
PROC REG DATA=數據集名 ;
MODEL 應變量=自變量/r influence;
RUN;
回歸診斷
編程
Dst.cars
p311 /r
p312 output+ p. r. student.
p313 plot student.*p.
P314-1 /influence
p314-2 output cookd dffits
p315 /collin vif
選項 influence 生成的統計量
R022 Influence
回歸診斷
識別有影響的觀測
偏杠桿圖是使有影響觀測可視化的方法
偏杠桿圖是兩個回歸的散點圖
例如對變量 xr 的偏杠桿圖:
縱軸是Y關於除xr以外所有x的回歸的余差
橫軸是xr關於所有x的回歸的余差
有影響觀測通常分離與其它數據點或在某
壹軸上有極端數值
偏杠桿圖還可識別要加入哪些變量的高次項
回歸診斷
識別有影響的觀測
SAS/INSIGHT 在下拉菜單選
GraphsPartial Leverage
Proc REG 的 Model語句加選項partial 可
獲得杠桿圖(低分辨)
PROC REG DATA=數據集名 ;
MODEL 應變量=自變量/partial;
RUN;
回歸診斷
識別有影響的觀測
如何處理有影響的觀測
復驗數據,確認並無數據輸入錯誤發生
若數據是有效的,模型可能不合適.擬
合此數據可能需要使用高階模型
也可能數據是反常的
壹般,不剔除數據.某些有影響的觀測提
供重要的信息.要剔除數據,應給出必
要的描述和說明
回歸診斷
***線性診斷
***線性(collinearity, multicollinearity)問題是指
獨立變量間存在線性關系
變量間的線性關系會隱蔽變量的顯著性
也會增加參數估計的方差
產生不穩定的模型
只有擬合多元回歸才會發生這壹問題
***線性的診斷可使用方差膨脹因子,條件指數和方差比例
回歸診斷
***線性診斷-VIF
方差膨脹因子(VIF)是對由於***線性而引起的參數估計量的方差增加的壹個相對度
量
dst.cars2
Rr2 是Xr關於模型中其它獨立變量回歸的R2
壹般采用 VIF >10 表明存在***線性問題
INSIGHT在擬合回歸時自動生成VIF
Proc REG 的Model語句加選項 VIF
回歸診斷
***線性診斷-條件指數和方差比例
條件指數(condition index)和方差比例
(variance proportion)聯合使用可確認存在
線性關系的變量組
條件指數(hi=(lmax/li)1/2)
在10-30間為弱相關
在30-100間為中度相關
大於100表明有強相關
大的條件指數伴隨方差比例> 0.5 可確認有
***線性的獨立變量子集
INSIGHT在下拉菜單中選
TablesCollonearity Diagnostics
Proc REG: Model語句
加選項collin 或 collinoint
回歸分析計算
PROC REG DATA=數據集名 graphics noprint;
MODEL 應變量=自變量名列/p cli clm r vif
influence partial collin collinoint;
PLOT y變量*x變量/選項 . . .;
id=變量名;
output=數據集名 關鍵統計量名=輸出名. . .;
RUN;
作圖變量:r., student., nqq., ...
回歸診斷
例外值(outliers)或異常作用點的檢查
從已擬合回歸的數據中分析線性模型的假定是否被破壞:
應變量的均值是否是獨立變量的線性函數,是否
需要對變量進行變換或擬合曲線回歸
余差(residuals)是否同方差,不相關,正態分布
獨立變量間是否存在線性關系(僅多元有)
考察余差散點圖是進行回歸診斷的必要步驟
Reg228,Reg228_1-228_4 Ascombe's 例
Lack -of -Fit 檢驗
若對於獨立變量 有應變量的重復觀測值
則可將線性預測誤差平方和分解為純誤差
平方和與Lack-of-fit平方和,用以檢驗
擬合線性回歸是否合適
Lack -of -Fit 檢驗