整理20個Pandas統計函數

大家好，最近整理了pandas中20個常用統計函數和用法，建議收藏學習~

為了解釋每個函數的使用，模擬了壹份帶有空值的數據：

descirbe方法只能針對序列或數據框，壹維數組是沒有這個方法的；同時默認只能針對數值型的數據進行統計：

返回的信息包含：

添加了參數後的情況，我們發現：

返回的是每個字段中非空值的數量

In [5]:

Out[5]:

In [6]:

在這裏我們發現：如果字段是object類型的，sum函數的結果就是直接將全部取值拼接起來

Out[6]:

In [7]:

針對字符串的最值（最大值或者最小值），是根據字母的ASCII碼大小來進行比較的：

Out[7]:

和max函數的求解是類似的：

In [8]:

Out[8]:

返回指定位置的分位數

In [9]:

Out[9]:

In [10]:

Out[10]:

In [11]:

Out[11]:

通過箱型圖可以展示壹組數據的25%、50%、75%的中位數：

In [12]:

箱型圖的具體展示信息：

壹組數據的平均值

In [13]:

Out[13]:

通過下面的例子我們發現：如果字段中存在缺失值（math存在缺失值），此時樣本的個數會自動忽略缺失值的總數

In [14]:

Out[14]:

比如：1,2,3,4,5 的中位數就是3

再比如：1,2,3,4,5,6 的中位數就是 3+4 = 3.5

In [15]:

Out[15]:

壹組數據中出現次數最多的數

In [16]:

Out[16]:

idxmax() 返回的是最大值得索引

In [17]:

Out[17]:

In [18]:

Out[18]:

不能字符類型的字段使用該函數，Pandas不支持：

In [19]:

返回最小值所在的索引

In [20]:

Out[20]:

In [21]:

Out[21]:

In [22]:

不能字符類型的字段使用該函數，Pandas不支持：

計算壹組數據的方差，需要註意的是：numpy中的方差叫總體方差，pandas中的方差叫樣本方差

標準差（或方差）分為總體標準差（方差）和樣本標準差（方差）

In [23]:

Out[23]:

In [24]:

Out[24]:

In [25]:

Out[25]:

In [26]:

Out[26]:

In [27]:

Out[27]:

返回的是壹組數據的標準差

In [28]:

Out[28]:

In [29]:

Out[29]:

In [30]:

Out[30]:

In [31]:

Out[31]:

如何理解pandas和numpy兩種方法對方差的求解不同：

In [32]:

Out[32]:

以字段age為例：

In [33]:

Out[33]:

In [34]:

Out[34]:

In [35]:

Out[35]:

In [36]:

Out[36]:

偏度（skewness），是統計數據分布偏斜方向和程度的度量，是統計數據分布非對稱程度的數字特征。

偏度(Skewness)亦稱偏態、偏態系數，表征概率分布密度曲線相對於平均值不對稱程度的特征數。

直觀看來就是密度函數曲線尾部的相對長度。定義上偏度是樣本的三階標準化矩：

In [37]:

Out[37]:

In [38]:

Out[38]:

返回的是峰度值

In [39]:

Out[39]:

In [40]:

Out[40]:

In [41]:

Out[41]:

返回數據的絕對值：

In [45]:

Out[45]:

如果存在缺失值，絕對值函數求解後仍是NaN：

In [46]:

Out[46]:

絕對值函數是針對數值型的字段，不能對字符類型的字段求絕對值：

In [47]:

In [48]:

Out[48]:

In [49]:

Out[49]:

In [50]:

Out[50]:

In [51]:

In [52]:

Out[52]:

In [53]:

Out[53]:

In [54]:

最後再總結下Pandas中常用來描述統計信息的函數：

上一篇:SEO偽原創文章怎麽寫

下一篇:高分求助在線等：將2個匯編程序合成壹個

相关文章

微商城是怎麽做的？

神器 SpringDoc 橫空出世！最適合 SpringBoot 的API文檔工具來了

時間和日期源代碼

阿裏的app有哪些

股票漲停有哪些抄底技巧？

2022國慶節進出京政策

源的組詞有什麽

copyright 2024編程學習大全網