超详细! 生成DataFrame、读取和保存各种格式数据

共 1268字,需浏览 3分钟

 ·

2022-04-12 12:27

一、生成DataFrame

以字典形式生成
import pandas as pd

datas = {
    '排名': [12345],
    '综合得分': [894603589570569],
    '粉丝数': [309147937049875712471259847],
    '获赞数': [1220031637498717368996]
}

df = pd.DataFrame(datas)
df

结果如下:

以列表形式生成
datas1 = [
    {'排名'1'综合得分'894'粉丝数'309147'获赞数'12200},
    {'排名'2'综合得分'603'粉丝数'93704'获赞数'31637},
    {'排名'3'综合得分'589'粉丝数'98757'获赞数'4987},
    {'排名'4'综合得分'570'粉丝数'124712'获赞数'1736},
    {'排名'5'综合得分'569'粉丝数'59847'获赞数'8996}
]

df1 = pd.DataFrame(datas1)
df1

结果如下:

在爬取数据时,保存数据如果用pandas,需要组织数据生成DataFrame,以上两种方法是很常用的,熟练掌握这两种方法在保存爬取下来的数据时很有帮助。

二、读取数据

pd.read_excel( ):读取 Excel 表格数据
# 读取 Excel 数据
df2 = pd.read_excel('rank_datas.xlsx')
# 随机抽取5行数据
df2.sample(5)
pd.read_csv( ):读取 csv 表格数据
# 读取 csv 数据
df3 = pd.read_csv('job_info.csv')
# 随机抽取5行数据
df3.sample(5)
pd.read_html( ):读取 html 网页上的表格数据
# 读取 html 数据
df4 = pd.read_html('aliyun-ddns.html')[0]
# 随机抽取5行数据
df4.sample(5)

结果如下:pd.read_html( )这个方法虽然少用,但它的功能非常强大,有时可以用做爬虫,直接抓取网页 Table 表格型数据,得到DataFrame。

pd.read_json( ):读取 json 数据
# 读取 json 数据
df5 = pd.read_json('fake_useragent.json')
df5.head()
pd.read_clipboard( ):从剪切板读取数据

三、保存数据

df.to_csv( ):保存到csv

结果如下:

df.to_excel( ):保存到 Excel

结果如下:
df.to_html():保存到html
结果如下:



万水千山总是情,点个  行不行

浏览 74
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报