如何計算置信區間

在做實驗時，即使實驗條件再準確，也無法避免隨機幹擾的影響，所以誤差永遠存在，無可避免。做科學實驗時要測量多次，采取取平均值的方法。在科學實驗的測量結果上，總是會加上壹個測量範圍。

統計學核心思想：用樣本信息來估計總體信息

之前我們用樣本給出壹個精確值來估計總體，這個點估計值是有價值的，但可能存在誤差，因為有估計就會有誤差，誤差不可避免但是可以減少。

點（精確值）誤差 > 區間（範圍）誤差

點估計

[圖片上傳失敗...(image-491647-1618377925287)]

圖中橫軸是不同樣本的平均值從小到大，紅色虛線表示要求的總體平均值，假設將抽樣的過程重復5次，那麽就有了5個樣本，可以算出5個樣本平均值的點估計，也就是藍色的點代表總體樣本。

[圖片上傳失敗...(image-2e6bd9-1618377925287)]

如果圖中有許多藍色的點，每壹個藍色的點都是對總體平均值的壹次點估計，這麽多點估計，我們是分辨不出那個點估計更好的，也就是說，我們無法知道估計的準確程度是多少，反過來說，我們是不知道誤差範圍的，為了解決點估計存在的問題，需要運用區間估計。

假如想要知道全國男性的平均身高，這只能通過抽樣的方法，用樣本信息估計出總體信息，從全國成年男性中隨機抽取壹個樣本，這個樣本的平均值就是對總體平均值的壹次點估計，當有多個樣本時具有多個點估計，由於無法判別那個點估計對總體估計的誤差範圍更小，所以要用區間估計來解決這個問題。

比如說，全國成年男性的平均身高在165cm~175cm這個區間[165, 175]，那麽這個區間就叫做置信區間。

置信區間 是統計中壹種區間估計的方法。用[a , b]表示樣本估計總體平均值誤差範圍的區間，由於a和b的確切數值取決於我們希望自己對於這個區間包含總體平均值這壹結果具有的可信程度，因此這個區間叫做置信區間。

[圖片上傳失敗...(image-d127cf-1618377925287)]

有五個樣本，樣本的總體平均值是上圖中的藍色點，對樣本的總體平均值使用某種方法，構造壹個置信區間，則5個樣本的平均值就有五個置信區間，也就是圖中黃色和紅色的橫線，哪壹根橫線更好呢，我們任然不知道，但是和點估計相比，因為這次是按照95%的置信水平構造出的區間估計，那麽我們可以相信，圖中除了紅色那根線，沒有包含總體平均值之外，其他線都包含了總體平均值。這個結論的相信程度有多大呢？也就是說，如果有100個樣本，可以構造出100個這樣的區間，其中大約有95個區間會包含總體平均值。這也解釋了什麽是置信水平。

置信水平 是指包含總體平均值的概率是多大，例如：95%的置信水平表示，如果有100個樣本，可以構造出100個這樣的區間，有95%的可能性包含總體平均值。所以說，如果只做壹次抽樣，那麽這個樣本包含總體平均值的概率也是95%。

1. 確定要求解的問題

用樣本信息估計總體信息

2. 求樣本的平均值和標準誤差

當樣本大小大於30時抽樣分布符合中心極限定理，也就是抽樣分布是正態分布的

總體標準差不知道，但可以用樣本標準差來估計總體標準差，標準誤差其實也是標準差，只不過標準誤差的計算對象是所有的“樣本平均值”，標準誤差是用來衡量所有的“樣本平均值”的波動大小

3. 確定置信水平

置信水平取多大，完全取決於具體情況，以及對區間中包含總體平均值這壹說法有多大信心。

置信水平越高，區間越寬，置信區間包含總體平均值的概率也就越大。常用的置信水平為95%。

[圖片上傳失敗...(image-55c4ad-1618377925287)]

根據中心極限定理，不管總體服從什麽分布，任意壹個樣本的平均值都會圍繞在總體平均值周圍呈現正態分布，所以圖中中間位置的紅色豎線就是總體平均值，根據正態分布的經驗法則，有95%的樣本平均值會落在兩個標準誤差之內。

4. 求置信區間上下限的值