四个好用却可能不为人所熟知的Pandas函数

数据森麟

共 1174字,需浏览 3分钟

 ·

2020-06-11 23:23

11f5479a8fb8b89135033da04458144e.webp


     作者:俊欣


     来源:数据分析与篮球

a99d713a85b4b9221f159d0fa34cf25f.webp0c9f15d42b5b9c9fea876ef9cfac77bf.webp

点击蓝色文字

关注我们


奉献更多优质内容

在数据分析的过程中,相信大家用的最多的就是Pandas库,无论是统计分析还是可视化等等,Pandas都给我们提供了诸多便利。今天小编就来和大家说说在Pandas库中那些不为人所熟知但是却十分好用的函数,希望大家看了之后也能够受益匪浅



01PARTidxmax()和idxmin()

从函数名称中我们就能直观的理解这几个函数的作用--返回最大值或者是最小值的索引,这里我们用到的数据集是“泰坦尼克号”乘客信息的数据集(是的,就是那个家喻户晓的kaggle入门级别的项目的数据集),假设我们要找到年龄最小或者最大的乘客的姓名,我们可以这么做,

02bb518b9b1435e217c6fe4fd323cd1e.webp

但是酱紫稍显繁琐,要是我们运用上述提到的函数就可以,

e7fac2a74cf371e6950c59a991d2bc47.webp

输出的结果都是一致,但是显得更加的简洁与高效



02PART      cut()

简而言之,cut()函数能够将数值划分成等额的数份,比如还是“泰坦尼克号”数据集中有代表乘客年龄的数据,我们将乘客的年龄等额的划分成5份,

91b38f0882a574ec6ba0cf680c57789a.webp

第一位乘客的年龄在16与32岁之间,第二位乘客的年龄则在32到48岁之间等等。或者你想用数字来代替图中的区间,则可以用

733715afc63111b882812b91d7f511fd.webp
03PARTnsmallest和nlargest

从函数名中,我们就能轻松的领悟到函数的作用了,比方说我们想找到在泰坦尼克号乘船中,年龄最大的3位乘客的姓名是什么,我们则可以

a31a59228d72ac8799fac795517d16c1.webp
04PART     pivot_table

也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了类似的功能,名为pivot_table,比方说我们想查找出数据集当中,三等舱男性的平均生存率,我们可以通过层层筛选来得出结论,

a765a5bc86e79d1e613389dbf1e78de1.webp

但假如我们想查找船舱中不同性别不同等级的客舱的平均生还率时,pivot_table就是一个非常好的工具,我们可以将性别设置成为索引,每一列代表客舱的等级,计算的方式则是采用取平均,也就是mean,如下图所示,

3914fa632aaa1c6226453598db349b60.webp

在Pandas库当中能够帮我们显著提效的函数还有很多,但是数据分析说到底也只是一种工具,来帮助我们发现与分析问题,但是要落实到解决问题,靠的依然是对业务的理解与思考。


◆ ◆ ◆  ◆ 



长按二维码关注我们



数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。


管理员二维码:


猜你喜欢

 笑死人不偿命的知乎沙雕问题排行榜

 用Python扒出B站那些“惊为天人”的阿婆主!

 全球股市跳水大战,谁最坑爹!

 华农兄弟、徐大Sao&李子柒?谁才是B站美食区的最强王者?

 你相信逛B站也能学编程吗

浏览 15
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报