一篇文章带你搞定Pandas绘图API
回复“资源”即可获赠Python学习资料
![](https://filescdn.proginn.com/27d428199287c4d27f2591125e23f009/7df8ccde07a9fc8af92e58a213c73c41.webp)
对于从网页上爬取下来的数据很多很杂乱,我们需要进行数据可视化,pandas除了数据处理还可以进行数据可视化展示,这里我们简单说明一下pandas绘制常见图形的一些API:由于现在针对数据可视化有很多库,matplotlib、seaborn、pyecharts等等,使用pandas绘图其实并不多,这里做一个简单展示。
目录:
柱状图
饼图
折线图
散点图
直方图
柱状图
普通柱图
首先我们打开excel数据文件,如下图所示:
![](https://filescdn.proginn.com/0908fc99a5f8389e7a286fda4d801452/ba3e800a5cca18c4af06e45afd5d5453.webp)
Field:专业;Number:对应专业学生数量,根据两列数据绘制简单柱图:
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_excel('Students.xlsx')
# pd绘图
data.sort_values(by='Number',inplace=True,ascending=False)
data.plot.bar(x='Field',y='Number',title='National Students Field')
plt.tight_layout()
plt.show()
解释说明:
Students.xlsx:对应的数据文件; data.sort_values(by='Number',inplace=True,ascending=False):按照Number数量大小排序,inplace = True:在当前数据文件上修改,不生成新的数据文件,ascending = False:降序排序; bar() 绘制柱图的函数,x、y分别指定下,x、y轴的序列; tight_layout() 使得整个图紧凑显示,不然x轴的文字由于太长会被挡住;
结果如下所示:
![](https://filescdn.proginn.com/ac389b34000c8a4a88ca580b3e488a9b/2932fff8528572d81f9ffa540377e9cf.webp)
分组柱图
首先我们还是查看数据文件:students02.xlsx
![](https://filescdn.proginn.com/c17e43383102761342a3331a9b7f5e9d/20791e97d7e77657153481526d733691.webp)
给出了2016、2017两年的学生数量,由此考虑绘制分组柱状图:
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_excel('Students02.xlsx')
data.sort_values(by='2017',inplace=True,ascending=False)
data.plot.bar(x='Field',y=['2016','2017'],color=['red','orange'])
plt.title('National Students Number',fontsize=16,fontweight='bold')
plt.xlabel('Field',fontweight='bold')
plt.ylabel('Number',fontweight='bold')
# x轴刻度偏转
ax = plt.gca()
ax.set_xticklabels(data['Field'],rotation=45,ha='right')
print(data)
f = plt.gcf()
f.subplots_adjust(left=0.2,bottom=0.4)
# plt.tight_layout()
plt.show()
解释说明:
bar() 绘制柱图的函数,x、y分别指定下,x、y轴的序列,但是由于分组柱图y轴不再是一个序列,而是由两个(或多个)序列组成的列表; plt.title() 设置标题,当然也可以在bar() 函数里面设置; plt.gca() 获得x轴的文字,下一列重新设置x轴的文字,并且把文字旋转45°,ha='right':依照右点为中心进行水平对齐; plt.gcf() 拿到绘制的图形对象,设置留白区域,left=0.2(左侧留白20%),bottom=0.4,底部留白40%;
结果如下:
![](https://filescdn.proginn.com/de054858dbb37b0f04b79f1028c51cb1/883029eaf90fde2246d7562e5de772a2.webp)
叠加柱图
有的时候可能不只有两组数据,要观察多组数据的数量占比,可以采用叠加柱图:
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_excel('./excel文件/Users.xlsx') # 这里数据文件就不再展示
data['total'] = data['Oct'] + data['Nov'] + data['Dec']
data.sort_values(by='total',inplace=True,ascending=False)
# data.plot.bar(x='Name',y=['Oct','Nov','Dec'],stacked=True,title='Users Behavior') 竖直
data.plot.barh(x='Name',y=['Oct','Nov','Dec'],stacked=True,title='Users Behavior') #水平 如果需要改变顺序,将ascending=true
plt.tight_layout()
plt.show()
结果如下图所示:
![](https://filescdn.proginn.com/50a0da32f242123cd4defb0d2a04f343/7be128cfb1fcf651898123cc0bf1b031.webp)
饼图
首先我们先查看一下数据文件,如下所示:
![](https://filescdn.proginn.com/b683945bc39ed054d833b006a85e70f1/9aa934f7172b573a08323c48d39a3baf.webp)
给出了2016,2017年来自不同国家的学生数量排名(rank);
由此绘制饼图:
import pandas as pd
import matplotlib.pyplot as plt
plt.figure(figsize=(12,8),dpi=100)
students = pd.read_excel('./bin_Students.xlsx', index_col='From')
students['2017'].plot.pie(fontsize=8,counterclock=False)
plt.title('Source of International Students', fontsize=16, fontweight='bold')
plt.ylabel('2017', fontsize=12, fontweight='bold')
plt.show()
解释说明:
figsize:设置图片大小,dpi:设置图片分辨率; pie()函数绘制饼图的的api函数,counterclock=False:这个参数设置饼图占比元素的环绕方向,false变送逆时针;
结果如下图所示:
![](https://filescdn.proginn.com/b998dcfd0a883069eccf876d624fe3fd/40efeb8ffe8a3783f860a92928a46aa1.webp)
折线图
由于文件数据过多,这里不做展示;简言之就是四个区域的不同周期的销售状况
绘图代码:
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_excel('./excel文件/Orders.xlsx',index_col='Week')
data.plot.area(y=['Accessories','Bikes','Clothing','Components']) #叠加区域图
plt.title('Sale Week Trend',fontsize=14,fontweight='bold')
plt.ylabel('Total',fontsize=10,fontweight='bold')
plt.xticks(data.index,fontsize=5)
plt.show()
结果如下:
![](https://filescdn.proginn.com/130704adae30b921b9f38c8f1c8b16bd/c07e81b25411dc0be0b8c97c683cbc64.webp)
由于后面集中图形使用较少,这里不再展示数据文件,直接上代码:
散点图
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_excel('./excel文件/home_data.xlsx',index_col='id')
data.plot.scatter(x='sqft_living',y='price') # 房子面积 价位
plt.show()
结果如下:
![](https://filescdn.proginn.com/9c6805433faa93e80431e6ba0d6525e3/902df70ab04db77ffd51f639e4884405.webp)
该图形绘制的是在某地区房子价位与房子面积的分布关系;
直方图
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_excel('./excel文件/home_data.xlsx')
data['sqft_living'].plot.hist(bins=60) # bins 表示柱子的数量
plt.xticks(range(0,max(data['sqft_living']),500),rotation=90,fontsize=6)
plt.show()
结果如下:
![](https://filescdn.proginn.com/616ef2442260a0e14808481e7200bb1d/ab393a427acbbac72f8382c4add9467f.webp)
该图表示某地区房子的价位的分布情况。
总结
以上就是使用pandas结合matplotlib绘制一些基本常用图形的例子,当然了例子是固定的,图形是灵活的,我们还是要根据不同的数据表,结合不同的现实状况,绘制不同的图形达到我们的目的。
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。
------------------- End -------------------
往期精彩文章推荐:
![](https://filescdn.proginn.com/b33778d8fbf77935c72ead659ea37546/36c2993593444c999623a0e3531d2c0a.webp)
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行