【Python】Pandas实用技能,数据筛选query函数详细介绍
来源:Python数据之道 (ID:PyDataLab)
作者:阳哥
Pandas 可以说是 在Python数据科学领域应用最为广泛的工具之一。
Pandas是一种高效的数据处理库,它以 dataframe
和 series
为基本数据类型,呈现出类似excel的二维数据。
在数据处理过程中,咱们经常会用到数据筛选,Pandas 中提供了数据筛选的多种方法,这里,阳哥来给大家分享下 在Pandas中应用 query
函数来进行数据筛选。
query
函数的一般用法如下:
df.query('expression')
文中的代码是在 Jupyter Notebook 中运行的(也可以是其他IDE),本次使用的 Pandas 版本是 1.3.0 版,如下:
import pandas as pd
print(f'pandas version: {pd.__version__}')
# pandas version: 1.3.0rc1
在开始之前,先创建一份数据,供后续使用:
data = {
'brand':['Python数据之道','价值前瞻','菜鸟数据之道','Python','Java'],
'A':[10,2,5,20,16],
'B':[4,6,8,12,10],
'C':[8,12,18,8,2],
'D':[6,18,14,6,12],
'till years':[4,1,1,30,30]
}
df = pd.DataFrame(data=data)
df
数据如下:
![](https://filescdn.proginn.com/53cbc8581da4c3b6a4b11e7ee1b2ef22/7c6a498e2348326af697593d38f67b15.webp)
常用方法
筛选 "brand" 列中值为 "Python数据之道" 的行,如下:
df.query('brand == "Python数据之道"')
结果如下:
![](https://filescdn.proginn.com/532474359ecd46f8d36925d1fa576217/bedd408feb70033017d6527e175eb127.webp)
说明一下,上面代码中的单引号和双引号是可以互换的,下面的写法,其结果也是一样的:
df.query(" brand == 'Python数据之道' ")
上面用 query 函数筛选数据,用下面的方法也是可以实现的:
df[df['brand']=="Python数据之道"]
![](https://filescdn.proginn.com/f4569944c2439f03679599b8646cb427/504a1b79394c421b4bd324255d0f2da7.webp)
上面是筛选字符串的值,也可以是筛选数字,如下:
![](https://filescdn.proginn.com/6b6bdcc81208a141cc01c871cf75a917/8629224c89b6022d2071f6cc415c5d7d.webp)
通过数学表达式筛选
除了直接通过等于某个值来筛选, query 函数还支持通过数学表达式来进行数据筛选,包括 >
、 <
、 +
、 -
、 *
、 /
等。
示例如下:
![](https://filescdn.proginn.com/5f0d606b50b1c191f26ca1dc6f6de4a0/5d9512f5e12d9fdbe90d09430362e7cf.webp)
![](https://filescdn.proginn.com/a6f125abab71add1470f968b81827a87/e52fc20d2f2f22526e2f138a6c819005.webp)
![](https://filescdn.proginn.com/54de4010f74fb0fb0cfcc1fbd4f77f3b/75bb960dbd4d20b637a386c31a7aa5ab.webp)
通过变量筛选
在程序比较长的时候,经常会使用变量来作为筛选条件, query 函数在使用变量作为判断标准时,通过在变量前面添加 @
符号来实现,示例如下:
# 通过变量来筛选数据,在变量前使用 @ 符号即可
name = 'Python数据之道'
df.query('brand == @name')
![](https://filescdn.proginn.com/98f84dc0ccac09c43499bc136b726e49/c4c13faa6d708a3dcf43f2ec38081ac8.webp)
列表数据筛选
当需要在某列中筛选多个符合要求的值的时候,可以通过列表(list)来实现,示例如下:
# 需要注意下 双引号 和 单引号的分开使用
df.query('brand in ["Python数据之道","价值前瞻"]')
# df.query("brand in ['Python数据之道','价值前瞻']")
![](https://filescdn.proginn.com/fa354506937cf3da8b2a7c75802564a9/c76a155a77c38e99e3ef5068872a1509.webp)
多条件筛选
有很多情况下,咱们需要通过多个条件来筛选数据,query 函数支持多种条件的组合,
两者都需要满足的并列条件使用符号 &
,或 单词and
只需要满足其中之一的条件使用符号 |
,或 单词or
示例如下:
![](https://filescdn.proginn.com/bd138b1b44df017a55b06b1000d270d4/b85b570676ff98a51f78478cc999bf48.webp)
![](https://filescdn.proginn.com/1925c709d669e08968e41443a2230ca9/40a0fa841b5b2d90b158c007a585d3fd.webp)
![](https://filescdn.proginn.com/2a622af9cbfc6c91939a2520f97c4543/8ede1fdbcd0491a80de26e29a7a1483b.webp)
![](https://filescdn.proginn.com/e14be12b710aafd7b42cc2e712e73484/cf51007e7c0750bfbc4bebc0323b3bcc.webp)
列名称有空格的情况
当 dataframe 的列名称中有空格或其他特殊符号的时候,需要使用 反引号(backtick mark)
,即键盘ESC键下面的按键(就是键盘上第二排第一个按键,有‘~’这个符号的按键) 来将列名包裹起来,示例如下:
df.query("`till years` < 5")
![](https://filescdn.proginn.com/dd180f69f69438ef8171937463b5823f/e4f9ea6aa4699e8399005aaa42286e0d.webp)
注意,如果使用单引号,将会报错,如下:
![](https://filescdn.proginn.com/c9a90312a5bd210e91f4fd72e30bbc73/21a131afca4c80f73bf814c1763feaea.webp)
筛选后选取数据列
在数据筛选后,还可以选择需要的数据列,如下:
![](https://filescdn.proginn.com/bbb31561d7e1e0ec1eceb792936943e6/33a0dad99d69503d6bc11184dc7065e3.webp)
小结
以上就是关于 Pandas 中 query 函数的主要内容介绍,应用 query函数进行数据筛选,其语言还是比较简洁的,尤其是当条件比较多的时候,会显得更优雅。
比如下面的对比,假设都是三个筛选条件(假设数据量较多,符合的结果也较多):
没有使用query函数时
df[(df['brand']=="Python数据之道") & (df['A'] >2) & (df['C'] >4)]
![](https://filescdn.proginn.com/0c002ec921cf6f1cc355c0c675d17fba/31203645bd3436904df381ed850fbf0b.webp)
可以看出上面的表达式是比较长的,略显繁琐。
使用query函数时
df.query(" brand == 'Python数据之道' & A>2 & C>4 ")
![](https://filescdn.proginn.com/41bda0d3ed8ff514108072f79bab61da/1f797f27bdade14b6efb84898c19f194.webp)
相对来说,使用query 函数会显得更加简洁,如果觉得这个功能不错,就赶紧用起来吧~~
大家读完顺手点下右下角的 “在看” ,就是最大的鼓励和支持了。
---------End---------
往期精彩回顾 本站qq群851320808,加入微信群请扫码: