當前位置:編程學習大全網 - 源碼下載 - 整理20個Pandas統計函數

整理20個Pandas統計函數

大家好,最近整理了pandas中20個常用統計函數和用法,建議收藏學習~

為了解釋每個函數的使用,模擬了壹份帶有空值的數據:

descirbe方法只能針對序列或數據框,壹維數組是沒有這個方法的;同時默認只能針對數值型的數據進行統計:

返回的信息包含:

添加了參數後的情況,我們發現:

返回的是每個字段中非空值的數量

In [5]:

Out[5]:

In [6]:

在這裏我們發現:如果字段是object類型的,sum函數的結果就是直接將全部取值拼接起來

Out[6]:

In [7]:

針對字符串的最值(最大值或者最小值),是根據字母的ASCII碼大小來進行比較的:

Out[7]:

和max函數的求解是類似的:

In [8]:

Out[8]:

返回指定位置的分位數

In [9]:

Out[9]:

In [10]:

Out[10]:

In [11]:

Out[11]:

通過箱型圖可以展示壹組數據的25%、50%、75%的中位數:

In [12]:

箱型圖的具體展示信息:

壹組數據的平均值

In [13]:

Out[13]:

通過下面的例子我們發現:如果字段中存在缺失值(math存在缺失值),此時樣本的個數會自動忽略缺失值的總數

In [14]:

Out[14]:

比如:1,2,3,4,5 的中位數就是3

再比如:1,2,3,4,5,6 的中位數就是 3+4 = 3.5

In [15]:

Out[15]:

壹組數據中出現次數最多的數

In [16]:

Out[16]:

idxmax() 返回的是最大值得索引

In [17]:

Out[17]:

In [18]:

Out[18]:

不能字符類型的字段使用該函數,Pandas不支持:

In [19]:

返回最小值所在的索引

In [20]:

Out[20]:

In [21]:

Out[21]:

In [22]:

不能字符類型的字段使用該函數,Pandas不支持:

計算壹組數據的方差,需要註意的是:numpy中的方差叫總體方差,pandas中的方差叫樣本方差

標準差(或方差)分為 總體標準差(方差)和 樣本標準差(方差)

In [23]:

Out[23]:

In [24]:

Out[24]:

In [25]:

Out[25]:

In [26]:

Out[26]:

In [27]:

Out[27]:

返回的是壹組數據的標準差

In [28]:

Out[28]:

In [29]:

Out[29]:

In [30]:

Out[30]:

In [31]:

Out[31]:

如何理解pandas和numpy兩種方法對方差的求解不同:

In [32]:

Out[32]:

以字段age為例:

In [33]:

Out[33]:

In [34]:

Out[34]:

In [35]:

Out[35]:

In [36]:

Out[36]:

偏度(skewness),是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征。

偏度(Skewness)亦稱偏態、偏態系數,表征概率分布密度曲線相對於平均值不對稱程度的特征數。

直觀看來就是密度函數曲線尾部的相對長度。定義上偏度是樣本的三階標準化矩:

In [37]:

Out[37]:

In [38]:

Out[38]:

返回的是峰度值

In [39]:

Out[39]:

In [40]:

Out[40]:

In [41]:

Out[41]:

返回數據的絕對值:

In [45]:

Out[45]:

如果存在缺失值,絕對值函數求解後仍是NaN:

In [46]:

Out[46]:

絕對值函數是針對數值型的字段,不能對字符類型的字段求絕對值:

In [47]:

In [48]:

Out[48]:

In [49]:

Out[49]:

In [50]:

Out[50]:

In [51]:

In [52]:

Out[52]:

In [53]:

Out[53]:

In [54]:

最後再總結下Pandas中常用來描述統計信息的函數:

  • 上一篇:SEO偽原創文章怎麽寫
  • 下一篇:高分求助在線等:將2個匯編程序合成壹個
  • copyright 2024編程學習大全網