pandas操作的數據集是Series,本質上是列表與字典的混合,常用的數據形式為DataFrame;
numpy操作的數據集是數組或矩陣。
1、對數組求均值、方差、標準差
2、對矩陣求標準差
註意:在求標準差時需要註意幾個問題:
1、在統計學中,標準差分為兩種:
(1)總體標準差:標準差公式根號內除以n,是有偏的。
(2)樣本標準差:標準差公式根號內除以n-1,是無偏的。
2、pandas與numpy在計算標準差時的區別
(1)numpy
?在numpy中計算標準差時,括號內要指定ddof的值,ddof表示自由度,當ddof=0時計算的是總體標準差;當ddof=1時計算的是樣本標準差,當不為ddof設置值時,其默認為總體標準差。
(2)pandas
?在使用pandas計算標準差時,其與numpy的默認情況是相反的,在默認情況下,pandas計算的標準差為樣本標準差。