當前位置:編程學習大全網 - 遊戲軟體 - 19正態性和平穩性檢驗

19正態性和平穩性檢驗

** 正態分布與正態性檢驗**

正態分布(Normal distribution),也稱“常態分布”,又名高斯分布(Gaussian distribution)。正態分布是具有兩個參數 μ 和 σ^2 的連續型隨機變量的分布,第壹參數 μ 是服從正態分布的隨機變量的均值,第二個參數 σ^2 是此隨機變量的方差。

正態性檢驗(Normality Test)是壹種特殊的假設檢驗,是檢驗壹批觀測值(或對觀測值進行函數變換後的數據)或壹批隨機數是否來自正態總體,是否服從正態分布。這是當基於正態性假定進行統計分析時,如果懷疑總體分布的正態性,應進行正態性檢驗。但當有充分理論依據或根據以往的信息可確認總體為正態分布時,不必進行正態性檢驗。

平穩性 '

平穩過程的概念在時間序列分析中壹直占有重要地位。所謂平穩時間序列過程就是概率分布在如下意義上跨時期穩定的時間序列過程:如果從時間序列中任取壹個變量集,並把這個序列向前移動 h 個時期,那麽其聯合聯合概率分布保持不變。規範而言:

Kolmogorov-Smirnov 正態性檢驗

統計學裏, Kolmogorov–Smirnov 檢驗(亦稱:K–S 檢驗)是用來檢驗數據是否符合某種分布的壹種非參數檢驗,通過比較壹個頻率分布f(x)與理論分布g(x)或者兩個觀測值分布來判斷是否符合檢驗假設。其原假設H0:兩個數據分布壹致或者數據符合理論分布。

ks.test 函數進行正態性檢驗的原假設為H0:數據符合正態分布。

D:D值越小,越接近0,表示樣本數據越接近正態分布。

p:p-value小於顯著性水平α(0.05),則拒絕H0,數據不服從正態分布。

ks.test的檢驗結果為:D=0.13781,p=0.4776>0.05,我們不能拒絕原假設H0,從而接受數據服從正態分布的原假設。

normalTest 檢驗:W=0.958,p=0.1995>0.05,因此不能拒絕服從正態分布的原假設,即該數據服從正態分布。 ksnormTest檢驗:D=0.1378,p=0.4776(雙側)>0.05,不能拒絕服從正態分布的原假設,即該數據服從正態分布。 殊途同歸,不同的正態性檢驗方法,雖然的出的檢驗統計量的值和P值不同,但最終是否服從正態分布的檢驗結果是壹致的。

註意:由於 K-S 檢驗不需要知道數據的分布情況,在小樣本的統計分析中效果比較好。(大樣本數據下,使用t-檢驗;小樣本數據,使用t-檢驗會出現較大的偏差)

nortest 包中的正態性檢驗

lillie.test()正態性檢驗,它是對K-S正態性檢驗的的修正,適合大樣本。

D值:D越小,越接近0,表示樣本數據越接近正態分布

p值:如果p-value小於顯著性水平α(0.05),則拒絕H0(服從正態分布)

根據 Lilliefor 正態性檢驗結果,檢驗統計量的值 D=0.20641,P< 2.2e-16<0.05。也就是說對中信證券股票日收盤價的數據正態性檢驗結果拒絕原假設,而接受數據服從非正態分布的備擇假設,因而中信證券股票日收盤價的數據不服從正態分布。

Anderson–Darling檢驗是壹種用來檢驗給定的樣本是否來自於某個確定的概率分布的統計檢驗方法。

A 值:A 越小,越接近 0,表示樣本數據越接近正態分布。

p 值:如果 p-value 小於顯著性水平 α(0.05),則拒絕 H0(服從正態分布)。

根據 Anderson-Darling 正態性檢驗結果,檢驗統計量的值為 A=129.1, p值 < 2.2e-16<0.05,在 5% 的顯著性水平上拒絕服從正態分布的原假設,而接受該時間序列數據服從正態分布的原假設,因而說明該時間序列數據不服從正態分布。

Cramer-von Mises測試是對正態性復合假設的EDF綜合測試。

W 值:W 越小,越接近 0,表示樣本數據越接近正態分布

p 值:如果 p-value 小於顯著性水平 α(0.05),則拒絕H0(樣本服從正態分布)

根據檢驗結果,檢驗統計量的值 W = 21.613, p 值= 7.37e-10<0.05,即在 5% 的顯著性水平上拒絕服從正態分布的原假設,從而該時間序列不服從正態分布。

Pearsonchi-square檢驗基於理論頻數與觀測頻數得到的。

p 值:P 越小,越接近 0,表示樣本數據越接近正態分布

p-value:如果 p-value 小於顯著性水平α(0.05),則拒絕服從正態分布的原假設。

根據檢驗結果,檢驗統計量的值 P=1850.6,p-value<2.2e-16<<0.05,因而拒絕服從正態分布的原假設,即該時間序列不服從正態分布。

Shapiro-Francia正態性檢驗的檢驗統計量只是有序樣本值與來自標準正態分布的(近似)預期有序分位數之間的平方相關性。

W 值:W 越小,越接近 0,表示樣本數據越接近正態分布

p 值:如果 p-value 小於顯著性水平 α(0.05),則拒絕H0(樣本服從正態分布)

根據本次檢驗結果,檢驗統計量的值 W = 0.74431, p-value<2.2e-16<<0.05,因而拒絕服從正態分布的原假設,故該時間序列不服從正態分布。

運用同壹個時間序列進行正態性檢驗,不管運用那種檢驗方法,結果都是壹致的,方法的改變並不會影響最終結果。

fBasics 包中的正態性檢驗

Shapiro-Wilk 是 Shapiro、Wilk 提出的用順序統計量 W 來檢驗分布的正態性。

W 值:W 越小,越接近 0,表示樣本數據越接近正態分布

p 值:如果 p-value 小於顯著性水平 α(0.05),則拒絕H0(樣本服從正態分布)

對分別滿足正態分布和指數分布的數據進行正態性檢驗,檢驗結果: 正態分布(data2):p-value=0.4879>0.05,不能拒絕原假設,滿足正態分布。 指數分布(data3):p-value<2.2e-16<<0.05,拒絕服從正態分布的原假設,該數據不滿足正態分布。

D'Agostino正態性檢驗

STATISTIC:卡方檢驗統計量(Omnibus)、偏度檢驗統計量(Skewness)、峰度檢驗統計量(Kurtosis)。

P 值:卡方綜合檢驗的 P 值、偏度檢驗的 P 值、峰度檢驗的 P 值。

由於正態分布的 Omnibus Test 的 P 值為 0.3423>0.05,即不能拒絕服從正態分布的原假設,說明實驗很合理。而指數分布的Omnibus Test 的 P 值為2.2e-16<<0.05,股指數分布數據拒絕服從正態分布的原假設,這也符合常理。

Jarque-Bera 檢驗壹種常用的正態性檢驗,針對大樣本的壹種正態性檢驗。

或者也可以用 tseries包中的 jarque.bera.test() 函數進行jarque-Bera正態性檢驗,檢驗結果壹致。

X-squared 值:值越小,越接近 0,表示樣本數據越接近正態分布

p 值:如果 p-value 小於顯著性水平 α(0.05),則拒絕H0(樣本服從正態分布)

據檢驗結果,正態分布的 P 值大於 0.05,指數分布的 P 值小於 0.05,檢驗結果非常合理。

正態QQ圖

對數據進行正態性檢驗不僅可以使用以上的實驗數學檢驗方法,還可以運用圖形的方法,即繪制正態 QQ 圖。

如果數據服從正態分布,則圖形的所有點基本落在 45 度的對角線上,上圖是正態分布的 QQ 圖,顯然所有點基本落在 45 度對角線上。

上圖是指數分布的 QQ 圖,顯然指數分布的大部分點都沒有落在 45 度對角線上,也就是說指數分布不服從正態分布。

平穩性檢驗是分析時間序列的基礎操作,壹般來說在進行時間序列數據的深入分析時,需要先檢驗該序列的平穩性才能進行後續的分析。平穩性檢驗有很多種方法,在本實驗中利用中國農業銀行的股票數據來介紹以下幾種平穩性檢驗方法。

圖形觀察法

繪制時序圖是檢驗時間序列平穩性最直觀的方法,但是缺點是不夠精確,有很大的主觀性。

壹個平穩的時間序列在圖形上往往表現出壹種圍繞其均值不斷波動的過程;

而非平穩序列則往往表現出在不同的時間段具有不同的均值(如持續上升或持續下降) 可以看到中國農業銀行股票的日收盤價的時間序列波動性較大不同的時段有不同的趨勢,明顯是不平穩的。為此繪制了差分後的時序圖,相對來說要平穩壹些,但不能完全判定。

時間序列的平穩性還可以通過觀察 ACF 圖來進行判定。平穩時間序列的自相關函數(ACF)要麽是截尾的,要麽是拖尾的。因此我們可以根據這個特性來判斷時間序列是否為平穩序列。

平穩時間序列:平穩時間序列的 K 階滯後自相關系數都非常小,呈截現象,ACF 值基本在置信區間內。

非平穩時間序列:該序列具有上升或下降的趨勢,對於所有短時滯來說,自相關系數大且為正,而且隨著時滯k的增加而緩慢地下降。

從中國農業銀行的股票日收盤價的 ACF圖可以看出ACF隨著k的增大而緩慢下降,自相關系數大且為正,因此該序列為非平穩時間序列。

單位根檢驗

單位根檢驗(unit root test)是針對各種時間序列中是否具有某種統計特性而提出的壹種平穩性檢驗的特殊方法,單位根檢驗的方法有很多種,包括DF檢驗、ADF檢驗、PP檢驗等。

DF檢驗

由於檢驗統計量的值(Value of test-statistic)為-2.9374,大於 1%、5%、10% 的顯著性水平上的臨界值,即在 1%、5%、10% 的顯著性水平上都不能拒絕存在單位根的原假設,因此該序列存在單位根,是非平穩時間序列。

ADF檢驗

根據 ADF 檢驗結果,DF=-2.5294,P 值為 0.3542>0.05,即在 5% 的顯著性水平上,不能拒絕存在單位根的原假設,因此該時間序列是非平穩的。

PP檢驗

PP 檢驗所用到的 pp.test() 函數任舊來自於 tseries 包,原假設為:序列存在單位根。檢驗統計量的值為 -14.718,p 值為0.2888>0.05,因此在 5% 的顯著性水平上不能拒絕原假設,該序列是非平穩時間序列。

  • 上一篇:qq名字起名取名
  • 下一篇:手機提示內存不足,該怎麽解決?
  • copyright 2024編程學習大全網