Pandas的26个统计汇总函数实战案例。

俊红的数据分析之路

共 2711字,需浏览 6分钟

 ·

2021-07-18 04:17

今天为大家讲述Pandas统计汇总函数中的26个函数。
注明: 由于实际问题中,表格数据每一行代表一个样本,每一列代表一个字段,一般情况下对行操作的意义不大,主要是对每个不同列进行操作。因此,下面我们仅讲述对列的操作。
为了讲述这些函数,我们先构造一些数据源,方便我们用于操作。
import numpy as np
import pandas as pd

data = [[12, np.nan], [2, np.nan, 3], [789], [345]]
date_range = pd.date_range(start="20180701", periods=4)
df1 = pd.DataFrame(data=data, index=date_range,
                   columns=['a''b''c'])
df1

df2 = pd.DataFrame({'Q':['LI','ZHANG','ZHANG','LI','WANG'], 
                   'A' : [1,1,1,2,2], 
                   'B' : [1,-1,0,1,2], 
                   'C' : [3,4,5,6,7]})
df2

df3 = pd.DataFrame({"id":[f"00{i}" for i in range(1,8)],
                   "score":[2,3,4,5,6,7,8]})
df3

df4 = pd.DataFrame({"姓名":["张三","李四","王五","赵六","沈七"],
                    "语文":[85,85,85,95,90],
                    "数学":[90,65,75,80,55],
                    "外语":[55,50,40,55,40]})
df4

1. max和min

min():计算最小值;max():计算最大值;

2. sum

sum():求和;

3. mean

mean():求均值;

4. count

count():计数(统计非缺失元素的个数);

5. size

size:计数(统计所有元素的个数);

6. median

median():计算中位数;

7. var

var():计算方差;

8. std

std():计算标准差;

9. quantile

quantile():计算任意分位数;

10. mode

mode():计算众数;

11. describe

describe():描述性统计(一次性返回多个统计结果);

12. groupby、aggregate

groupby():分组;aggregate():聚合运算(可以自定义统计函数);
上面已经很清楚为大家展示了,分组后的数据形式。其实一旦使用groupby后,系统会自动为你分组,然后我们就可以分别对分组后的数据,进行操作,比如下面这个案例。

13. argmin、argmax

argmin():寻找最小值所在位置;argmax():寻找最大值所在位置;
注意:这两个函数,用于函数删选,很有用。

14. any、all

any():返回是否所有元素都为真;all():返回是否至少一个元素为真;
上述代码的意思:判断班级各科成绩是否都在60分以上。

15. value_counts

value_counts():频次统计;

16. cumsum、cumprod

cumsum():运算累计和;cumprod():运算累计积;

17. pct_change

pct_change():运算比率(后一个元素与前一个元素的比率);
运算规律是:(后一个值 - 前一个值) / 前一个值;
点分享
点收藏
点点赞
点在看
浏览 95
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报