當前位置:編程學習大全網 - 編程語言 - 如何計算置信區間

如何計算置信區間

在做實驗時,即使實驗條件再準確,也無法避免隨機幹擾的影響,所以誤差永遠存在,無可避免。做科學實驗時要測量多次,采取取平均值的方法。在科學實驗的測量結果上,總是會加上壹個測量範圍。

統計學核心思想:用樣本信息來估計總體信息

之前我們用樣本給出壹個精確值來估計總體,這個點估計值是有價值的,但可能存在誤差,因為有估計就會有誤差,誤差不可避免但是可以減少。

點(精確值)誤差 > 區間(範圍)誤差

點估計

[圖片上傳失敗...(image-491647-1618377925287)]

圖中橫軸是不同樣本的平均值從小到大,紅色虛線表示要求的總體平均值,假設將抽樣的過程重復5次,那麽就有了5個樣本,可以算出5個樣本平均值的點估計,也就是藍色的點代表總體樣本。

[圖片上傳失敗...(image-2e6bd9-1618377925287)]

如果圖中有許多藍色的點,每壹個藍色的點都是對總體平均值的壹次點估計,這麽多點估計,我們是分辨不出那個點估計更好的,也就是說,我們無法知道估計的準確程度是多少,反過來說,我們是不知道誤差範圍的,為了解決點估計存在的問題,需要運用區間估計。

假如想要知道全國男性的平均身高,這只能通過抽樣的方法,用樣本信息估計出總體信息,從全國成年男性中隨機抽取壹個樣本,這個樣本的平均值就是對總體平均值的壹次點估計,當有多個樣本時具有多個點估計,由於無法判別那個點估計對總體估計的誤差範圍更小,所以要用區間估計來解決這個問題。

比如說,全國成年男性的平均身高在165cm~175cm這個區間[165, 175],那麽這個區間就叫做置信區間。

置信區間 是統計中壹種區間估計的方法。用[a , b]表示樣本估計總體平均值誤差範圍的區間,由於a和b的確切數值取決於我們希望自己對於這個區間包含總體平均值這壹結果具有的可信程度,因此這個區間叫做置信區間。

[圖片上傳失敗...(image-d127cf-1618377925287)]

有五個樣本,樣本的總體平均值是上圖中的藍色點,對樣本的總體平均值使用某種方法,構造壹個置信區間,則5個樣本的平均值就有五個置信區間,也就是圖中黃色和紅色的橫線,哪壹根橫線更好呢,我們任然不知道,但是和點估計相比,因為這次是按照95%的置信水平構造出的區間估計,那麽我們可以相信,圖中除了紅色那根線,沒有包含總體平均值之外,其他線都包含了總體平均值。這個結論的相信程度有多大呢?也就是說,如果有100個樣本,可以構造出100個這樣的區間,其中大約有95個區間會包含總體平均值。這也解釋了什麽是置信水平。

置信水平 是指包含總體平均值的概率是多大,例如:95%的置信水平表示,如果有100個樣本,可以構造出100個這樣的區間,有95%的可能性包含總體平均值。所以說,如果只做壹次抽樣,那麽這個樣本包含總體平均值的概率也是95%。

1. 確定要求解的問題

用樣本信息估計總體信息

2. 求樣本的平均值和標準誤差

當樣本大小大於30時抽樣分布符合中心極限定理,也就是抽樣分布是正態分布的

總體標準差不知道,但可以用樣本標準差來估計總體標準差,標準誤差其實也是標準差,只不過標準誤差的計算對象是所有的“樣本平均值”,標準誤差是用來衡量所有的“樣本平均值”的波動大小

3. 確定置信水平

置信水平取多大,完全取決於具體情況,以及對區間中包含總體平均值這壹說法有多大信心。

置信水平越高,區間越寬,置信區間包含總體平均值的概率也就越大。常用的置信水平為95%。

[圖片上傳失敗...(image-55c4ad-1618377925287)]

根據中心極限定理,不管總體服從什麽分布,任意壹個樣本的平均值都會圍繞在總體平均值周圍呈現正態分布,所以圖中中間位置的紅色豎線就是總體平均值,根據正態分布的經驗法則,有95%的樣本平均值會落在兩個標準誤差之內。

4. 求置信區間上下限的值

上圖中上下限ba是根據總體平均值對稱分布的,可以根據求a從而來求b,上圖的距離平均值的幾個標準誤差就是幾個標準分,只要求出a對應的標準分是多少就可以了,用z來表示標準分,那麽如何求z的值呢?

下圖是求z的值的方法

根據中心極限定理,樣本平均值約等於總體平均值。根據上圖就可以求出ab了

置信區間公式中的z是指其絕對值|z| ,公式修正如下:

a=總體平均值- |z|* 標準誤差

b=總體平均值+ |z|* 標準誤差

大樣本計算置信區間的總結

置信區間公式中的z是指其絕對值|z| ,公式修正如下:

a=總體平均值- |z|* 標準誤差

b=總體平均值+ |z|* 標準誤差

當樣本大小小於30時,抽樣分布符合t分布,t分布很像正態分布,曲線較為扁平,有兩條突出的尾巴

[圖片上傳失敗...(image-89cbb1-1618377925287)]

上圖中的n指的是樣本大小,df指的是自由度

小樣本的置信區間與大樣本的置信區間只有壹點不同,也就是第三步所查詢的表格不同

置信區間公式中的t是指其絕對值|t| ,公式修正如下:

a=總體平均值- |t|* 標準誤差

b=總體平均值+ |t|* 標準誤差

自由度是指,可選的樣本大小中,減去最後壹次沒有選擇可選的只剩下1個樣本的數量多少。

如:有四種水果,每天選擇吃完壹種,到第四天時,只有唯壹的壹種水果可吃了,此時沒有其他選擇了,這時自由度為3。

  • 上一篇:壹半蜜壹半傷電視劇演員陣容。
  • 下一篇:我們機構想要壹個自己的在線教育直播平臺,找哪家做比較靠譜?
  • copyright 2024編程學習大全網