當前位置:編程學習大全網 - 編程語言 - 2019-07-29

2019-07-29

統計學:數據的集中趨勢(圖片上傳不了,請見諒,粗略匯總,如有想法,請下方留言)

[if !supportLists](壹)[endif] 數據的集中趨勢 :

集中趨勢(central tendency)在統計學中是指壹組數據向某壹中心值攏的程度,它反映了壹組數據中心點的位置所在。集中趨勢測度就是尋找數據水平的代表值或中心值,低層數據的集中趨勢測度值適用於高層次的測量數據,能夠揭示總體中眾多個觀察值所圍繞與集中的中心,反之,高層次數據的集中趨勢測度值並不適用於低層次的測量數據。

[if !supportLists]1.[endif] 眾數 (Mode) :

定義: 眾數 (Mode) 是統計學名詞,在統計分布上具有明顯集中趨勢點的數值,代表數據的壹般水平(眾數可以不存在或多於壹個)。修正定義:是壹組數據中出現次數最多的數值,叫眾數,有時眾數在壹組數中有好幾個。用M表示。 理性理解:簡單的說,就是壹組數據中占比例最多的那個數。

相關資料: 眾數是樣本觀測值在頻數分布表中頻數最多的那壹組的組中值,主要應用於大面積普查研究之中。在高斯分布中,眾數位於峰值,用眾數代表壹組數據,可靠性較差,不過,眾數不受極端數據的影響,並且求法簡便。在壹組數據中,如果個別數據有很大的變動,選擇中位數表示這組數據的“集中趨勢”就比較適合。當數值或被觀察者沒有明顯次序(常發生於非數值性資料)時特別有用,由於可能無法良好定義算術平均數和中位數。例子:{雞、鴨、魚、魚、雞、魚}的眾數是魚。眾數算出來是銷售最常用的,代表最多的。

計算方法: ① 觀察法。若數據已歸類,則出現頻數最多的數據即為眾數;若數據已分組,則頻數最多的那壹組的組中值即為眾數。用觀察法求得的眾數,壹般是粗略眾數。

金氏插入法,根據計算公式:

式中L表示眾數所在組的精確下限,U 表示眾數所在組的精確上限,fa為與眾數組下限相鄰的頻數,fb為與眾數組上限相鄰的頻數,i為組距。

②皮爾遜經驗法

根據計算 公式 :

可求眾數。

式中ξ為樣本均值, Md 為中數,用皮爾遜公式計算所得眾數近似於理論眾數,常稱為皮爾遜近似眾數。眾數是皮爾遜(Pearson,K.)最先提出並在生物統計學中使用的,以上是數據出自於離散型隨機變量時求眾數的方法,對於連續型隨機變量ξ ,若概率密度函數為 f ,且 f 恰有壹個最大值,則此最大值稱為ξ 的眾數,有時也把 f 的極大值稱為眾數; f 有兩個以上極大值時,亦稱復眾數。

Excel:在對應單元格中輸入公式:=MODE(B3:B28),眾數次數:公式如下:=COUNTIF(B3:B28,眾數數值或者眾數所在單元格)。

[if !supportLists]2.[endif] 中位數 ( Median ) :

定義: 中位數(又稱中值/中點數,英語: Median ),統計學中的專有名詞,代表壹個樣本、種群或概率分布中的壹個數值,其可將數值集合劃分為相等的上下兩部分。中位數是按順序排列的壹組數據中居於中間位置的數,即在這組數據中,有壹半的數據比他大,有壹半的數據比他小,這裏用?來表示中位數。(註意:中位數和眾數不同,眾數指最多的數,眾數有時不止壹個,而中位數只能有壹個。)是壹種衡量集中趨勢的方法。

對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的壹個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。壹個數集中最多有壹半的數值小於中位數,也最多有壹半的數值大於中位數。如果大於和小於中位數的數值個數均少於壹半,那麽數集中必有若幹值等同於中位數。設連續 隨機變量 X的 分布函數 為?,那麽滿足條件?的數稱為X或分布F的中位數。

特點: ①中位數是以它在所有標誌值中所處的位置確定的全體單位標誌值的代表值,不受分布數列的極大或極小值影響,從而在壹定程度上提高了中位數對分布數列的代表性。

②有些離散型變量的單項式數列,當次數分布偏態時,中位數的代表性會受到影響。

③趨於壹組有序數據的中間位置

計算方法: ①對於壹在Matlab中,median()函數是求取壹組數據的中位數的內置函數,使用規則如下:

M = median(A)

M = median(A,dim)

M = median(___,nanflag)

示例:

1)A = [0 1 1; 2 3 2; 1 3 2; 4 2 2]

M = median(A)

得到結果:M = [ 1.5000 2.5000 2.0000]

2)A = [0 1 1; 2 3 2]

M = median(A,2)

得到結果:

其他: 1)平均數是通過計算得到的,因此它會因每壹個數據的變化而變化。

2)中位數是通過排序得到的,它不受最大、最小兩個極端數值的影響。部分數據的變動對中位數沒有影響,當壹組數據中的個別數據變動較大時,常用它來描述這組數據的集中趨勢。

3)眾數也是數據的壹種代表數,反映了壹組數據的集中程度.日常生活中諸如“最佳”、“最受歡迎”、“最滿意”等,都與眾數有關系,它反映了壹種最普遍的傾向。

優缺點:平均數需要全組所有數據來計算,易受數據中極端數值的影響。中位數僅需把數據按順序排列後即可確定,不易受數據中極端數值的影響。眾數通過計數得到,不易受數據中極端數值的影響。在數列中出現了極端變量值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變量值的影響;如果研究目的就是為了反映中間水平,當然也應該用中位數。在統計數據的處理和分析時,可結合使用中位數。

[if !supportLists]3.[endif] 平均數 ( mean ) :

定義: 平均數,統計學術語,是表示壹組數據集中趨勢的量數,是指在壹組數據中所有數據之和再除以這組數據的個數。它是反映數據集中趨勢的壹項指標。

在統計工作中,平均數(均值)和標準差是描述數據資料集中趨勢和離散程度的兩個最重要的測度值.

調和平均數≤幾何平均數≤算術平均數≤平方平均數(並且只有當所有變量值都相等時,這三種平均數才相等)

分類: ①算術平均數(arithmetic mean):算術平均數是指在壹組數據中所有數據之和再除以數據的個數。它是反映數據集中趨勢的壹項指標。把n個數的總和除以n,所得的商叫做這n個數的平均數。用平均數表示壹組數據的情況,有直觀、簡明的特點,所以在日常生活中經常用到,如平均速度、平均身高、平均產量、平均成績等等。

優缺點:該方法的優點是計算簡單,而缺點是計算平均數時沒有考慮到近期的變動趨勢,因而預測值與實際值往往會發生較大的誤差。通常適用於預測銷售比較穩定的產品。如沒有季節性變化的糧油食品和日常用品等。

②幾何平均數(geometric mean),n個觀察值連乘積的n次方根就是幾何平均數。根據資料的條件不同,幾何平均數分為加權和不加權之分。幾何平均數多用於計算平均比率和平均速度。如:平均利率、平均發展速度、平均合格率等

1、 簡單幾何平均法

 ? 2、 加權幾何平均法

算術平均數,(a+b)/2,體現純粹數字上的關系,而根號ab,稱為幾何平均數,這個體現了壹個幾何關系,作壹正方形,使其面積等於以a,b為長寬的矩形,則該正方形的邊長即為a、b的幾何平均數,中國古代數學書中提到的矩形面積時 往往用長寬的幾何平均數來表示。

計算幾何平均數要求各觀察值之間存在連乘積關系,它的主要用途是:1、對比率、指數等進行平均;2、計算平均發展速度;其中:樣本數據非負,主要用於對數正態分布。

特點:1、幾何平均數受極端值的影響較算術平均數小。2、如果變量值有負值,計算出的幾何平均數就會成為負數或虛數。3、它僅適用於具有等比或近似等比關系的數據(它適用於反映特定現象的平均水平,即現象的總標誌值不是各單位標誌值的總和,而是各單位標誌值的連乘積的情形。對於這類社會經濟現象,不能采用算術平均數反映其壹般水平,而需采用幾何平均數)。4、幾何平均數的對數是各變量值對數的 算術平均數 。

計算舉例:假定某地儲蓄年利率(按 復利 計算):5%持續1.5年,3%持續2.5年,2.2%持續1年。請問此5年內該地平均儲蓄年利率。該地平均儲蓄年利率(利率=利息÷本金÷時間×100%)某銀行為吸收存款而提高利息率,五年的利息率分別為3%、4%、5%、6%、7% ,試計算五年的平均年利率(分別按單利和復利兩種情況計算)存入10000元 五年後 的實際本利和:單利:10000*(1+3%+4%+5%+6%+7%)=12500復利:10000*(1+3%)*(1+4%)*(1+5%)*(1+6%)*(1+7%)=12757.03元單利平均年利率:(3%+4%+5%+6%+7%)/5=5%復利平均年利率:[(1+3%)*(1+4%)*(1+5%)*(1+6%)*(1+7%)-1]/5=5.51%(按照此方法計算的復利的平均年利率計算方法為3.44%:

③調和平均數(harmonic mean):調和平均數又稱倒數平均數,是變量倒數的算術平均數的倒數。

計算方法:簡單調和平均數是算術平均數的變形,它的計算公式如下:

加權調和平均數:加權調和平均數是加權算術平均數的變形。它與加權算術平均數在實質上是相同的,而僅有形式上的區別,即表現為變量對稱的區別、權數對稱的區別和計算位置對稱的區別。因而其計算公式為:

加權調和平均數的應用:在很多情況下,由於只掌握每組某個標誌的數值總和(M)而缺少總體單位數(f)的資料,不能直接采用加權算術平均數法計算平均數,則應采用加權調和平均數。

例如:某工廠購進材料三批,每批價格及采購金額資料如下表:

?價格(元/千克)(x)采購金額(元)(m)采購數量(千克)(m/x)

第壹批3510000286

第二批4020000500

第三批4515000330

合計--450001116

調和平均數可以用在相同距離但速度不同時,平均速度的計算;如壹段路程,前半段時速60公裏,後半段時速30公裏〔兩段距離相等〕,則其平均速度為兩者的調和平均數時速40公裏。

另外,兩個電阻R1, R2並聯後的等效電阻R:

恰為兩電阻調和平均數的壹半。

特點:①調和平均數易受極端值的影響,且受極小值的影響比受極大值的影響更大。②只要有壹個標誌值為0,就不能計算調和平均數。③當組距數列有開口組時,其組中值即使按相鄰組距計算,假定性也很大,這時的調和平均數的代表性很不可靠。

④調和平均數應用的範圍較小。在實際中,往往由於缺乏總體單位數的資料而不能直接計算算術平均數,這時需用調和平均法來求得平均數。

註意事項:(1)當變量數列有壹變量X的值為零時,調和平均數公式的分母將等於無窮大,因而無法求出確定的平均值。(2)調和平均數和算術平均數壹樣,易受兩極端值影響。上端值越大,平均數向上偏離集中趨勢就越大。反之,下端值越大,平均數向下偏離集中趨勢越大。(3)要註意區分調和平均數和算術平均數的使用條件,因事制宜。

密度,速度,概率都是壹種近似概念:A在空間B的平均分布程度,而調和平均數,是為了衡量A在空間B,C的總體平均分布程度(假設B,C不重疊)。而加權調和平均數,就是在B,C裏加個權數。

調和平均數與算術平均數的舉例分析:

例壹水果甲級每元1公斤,乙級每元1.5公斤,丙級每元2公斤。問:

 (1)若各買1公斤,平均每元可買多少公斤?

 (2)各買6.5公斤,平均每元可買多少公斤?

 (3)甲級3公斤,乙級2公斤,丙級1公斤,平均每元可買幾公斤?

 (4)甲乙丙三級各買1元,每元可買幾公斤?

 解:例壹

 (1)(公斤/元)

(2)(公斤/元)

 (3)(公斤/元)

[if !supportLists](4)[endif](公斤/元)

考慮壹次去便利店並返回的行程:

去程速度為30 mph,返程時交通有壹些擁堵,所以速度為10 mph,去程和返程走的是同壹路線,也就是說距離壹樣(5英裏)

?整個行程的平均速度是多少?如果不假思索地應用算術平均數的話,結果是20 mph((30+10)/2)。但是這麽算不對。因為去程速度更快,所以妳更快地完成了去程的5英裏,整個行程中以30 mph的速度行駛的時間更少,以10 mph的速度行駛的時間更多,所以整個行程期間妳的平均速度不會是30 mph和10 mph的中點,而應該更接近10 mph。

為了正確地應用算術平均數,我們需要判定以每種速率行駛所花的時間,然後以適當的權重加權算術平均數的計算:

去程:5 / (30/60) = 10分鐘

返程:5 / (10/60) = 30分鐘

總行程:10 + 30 = 40分鐘

加權算術平均數:(30 * 10/40) + (10 * 30/40) = 15 mph所以,我們看到,真正的平均速度是15 mph,比使用未加權的算術平均數計算所得低了5 mph(或者25%)。

那如果用調和平均數呢?

2 / (1/30 + 1/10) = 15

壹下子得到了真正的行程平均速度,自動根據在每個方向上使用的時間進行調整。需要註意的是,這裏之所以可以直接應用調和平均數,是因為去程和返程的距離是相等的,如果兩者距離不等(比如去程和返程走了不同路線),那麽需要應用加權調和平均數。在財經上,加權調和平均數可以用於計算組合投資多個股票的市盈率(P/E)。

當然調和平均數還有很多應用場景,比如統計學上的F1評分,就是準確率和召回的調和平均數。

④指數平均數(EXPMA):指數平均數其構造原理是對股票收盤價進行算術平均,並根據計算結果來進行分析,用於判斷價格未來走勢得變動趨勢。

EXPMA指標是壹種趨向類指標,與平滑異同移動平均線[MACD]、平行線差指標[DMA]相比,EXPMA指標由於其計算公式中著重考慮了價格當天 [當期]行情得權重,因此在使用中可克服其他指標信號對於價格走勢得滯後性。同時也在壹定程度中消除了DMA指標在某些時候對於價格走勢所產生得信號提前性,是壹個非常有效得分析指標。

[if !supportLists]4.[endif]分位數(quantile fractile)

定義: 設連續隨機變量X的累積分布函數為F(X),概率密度函數為p(x)。那麽,對任意0<p<1的p,稱F(X)=p的X為此分布的分位數,或者下側分位數。簡單的說,分位數指的就是連續分布函數中的壹個點,這個點的壹側對應概率p。

[if !supportLists]5.[endif]極差(range)

定義:全距(Range),又稱極差,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距;即最大值減最小值後所得之數據。極差不能用作比較,單位不同 ; 方差能用作比較,因為都是個比率。

極差是指壹組測量值內最大值與最小值之差,又稱範圍誤差或全距,以R表示。它是標誌值變動的最大範圍,它是測定標誌變動的最簡單的指標。移動極差(Moving Range)是其中的壹種。

極差沒有充分利用數據的信息,但計算十分簡單,僅適用樣本容量較小(n<10)情況。

優缺點:它是標誌值變動的最大範圍。極差也稱為全距或範圍誤差,它是測定標誌變動的最簡單的指標。換句話說,也就是指壹組數據中的最大數據與最小數據的差叫做這組數據的極差。極差英文為range,簡寫為R,表示為:R=Xmax-Xmin。移動極差(Moving Range)是其中的壹種。

  • 上一篇:軟件工程需要學哪些課程
  • 下一篇:日本的侵略中國陰謀的宣傳畫-蠍子政策,蠍子的頭和腳都值的那些地方或國家?
  • copyright 2024編程學習大全網