為了解釋每個函數的使用,模擬了壹份帶有空值的數據:
descirbe方法只能針對序列或數據框,壹維數組是沒有這個方法的;同時默認只能針對數值型的數據進行統計:
返回的信息包含:
添加了參數後的情況,我們發現:
返回的是每個字段中非空值的數量
In [5]:
Out[5]:
In [6]:
在這裏我們發現:如果字段是object類型的,sum函數的結果就是直接將全部取值拼接起來
Out[6]:
In [7]:
針對字符串的最值(最大值或者最小值),是根據字母的ASCII碼大小來進行比較的:
Out[7]:
和max函數的求解是類似的:
In [8]:
Out[8]:
返回指定位置的分位數
In [9]:
Out[9]:
In [10]:
Out[10]:
In [11]:
Out[11]:
通過箱型圖可以展示壹組數據的25%、50%、75%的中位數:
In [12]:
箱型圖的具體展示信息:
壹組數據的平均值
In [13]:
Out[13]:
通過下面的例子我們發現:如果字段中存在缺失值(math存在缺失值),此時樣本的個數會自動忽略缺失值的總數
In [14]:
Out[14]:
比如:1,2,3,4,5 的中位數就是3
再比如:1,2,3,4,5,6 的中位數就是 3+4 = 3.5
In [15]:
Out[15]:
壹組數據中出現次數最多的數
In [16]:
Out[16]:
idxmax() 返回的是最大值得索引
In [17]:
Out[17]:
In [18]:
Out[18]:
不能字符類型的字段使用該函數,Pandas不支持:
In [19]:
返回最小值所在的索引
In [20]:
Out[20]:
In [21]:
Out[21]:
In [22]:
不能字符類型的字段使用該函數,Pandas不支持:
計算壹組數據的方差,需要註意的是:numpy中的方差叫總體方差,pandas中的方差叫樣本方差
標準差(或方差)分為 總體標準差(方差)和 樣本標準差(方差)
In [23]:
Out[23]:
In [24]:
Out[24]:
In [25]:
Out[25]:
In [26]:
Out[26]:
In [27]:
Out[27]:
返回的是壹組數據的標準差
In [28]:
Out[28]:
In [29]:
Out[29]:
In [30]:
Out[30]:
In [31]:
Out[31]:
如何理解pandas和numpy兩種方法對方差的求解不同:
In [32]:
Out[32]:
以字段age為例:
In [33]:
Out[33]:
In [34]:
Out[34]:
In [35]:
Out[35]:
In [36]:
Out[36]:
偏度(skewness),是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征。
偏度(Skewness)亦稱偏態、偏態系數,表征概率分布密度曲線相對於平均值不對稱程度的特征數。
直觀看來就是密度函數曲線尾部的相對長度。定義上偏度是樣本的三階標準化矩:
In [37]:
Out[37]:
In [38]:
Out[38]:
返回的是峰度值
In [39]:
Out[39]:
In [40]:
Out[40]:
In [41]:
Out[41]:
返回數據的絕對值:
In [45]:
Out[45]:
如果存在缺失值,絕對值函數求解後仍是NaN:
In [46]:
Out[46]:
絕對值函數是針對數值型的字段,不能對字符類型的字段求絕對值:
In [47]:
In [48]:
Out[48]:
In [49]:
Out[49]:
In [50]:
Out[50]:
In [51]:
In [52]:
Out[52]:
In [53]:
Out[53]:
In [54]:
最後再總結下Pandas中常用來描述統計信息的函數: