什么,3行Python代码就能获取海量数据?
点击上方“数据管道”,选择“置顶星标”公众号
干货福利,第一时间送达
![](https://filescdn.proginn.com/e5598a507c032d092e32299e5f9c7c31/c9916f68826131384219f11cfab74f9d.webp)
大家好,我是宝器!
一谈起数据分析,首先想到的就是数据,没有数据,谈何分析。
毕竟好的菜肴,没有好的原材料,是很难做的~
所以本期就给大家分享一个获取数据的方法,只需三行代码就能搞定。
「GoPUP」,大佬造的轮子,大概有100+的免费数据接口。
![](https://filescdn.proginn.com/7170b154d49eccbd8705efd6eafa1e35/10eb965154762905fd69fb9559818f89.webp)
GitHub:https://github.com/justinzm/gopup
使用文档:http://doc.gopup.cn/#/README
主要有指数数据、宏观经济数据、新经济数据、微博KOL数据、信息数据、生活数据、疫情数据等。
# 安装gopup
pip install gopup --upgrade
安装成功后,就能使用了。
01 微博指数
获取指定关键词的微博指数。
# 微博指数
import gopup as gp
df_index = gp.weibo_index(word="马保国", time_type="1month")
print(df_index)
time_type="1month"; 1hour, 1day, 1month, 3month 选其一。
![](https://filescdn.proginn.com/2051038329b2cf0a992324de2034868f/2e060e6f83ca87db569bff77248a0ca6.webp)
三行Python代码实现数据获取。
02 百度指数
获取指定关键词的百度搜索指数。
# 百度指数
import gopup as gp
cookie = "此处输入您在网页端登录百度指数后的 cookie 数据"
index_df = gp.baidu_search_index(word="马保国", start_date='2020-11-15', end_date='2020-11-25', cookie=cookie)
print(index_df)
需要登陆百度指数,获取你的Cookie。
![](https://filescdn.proginn.com/2ad7e0ac80da4c7213eba1634f1743d9/d05a4cf9623e7fbbabb516bbeb20980a.webp)
设置关键词,时间起始,就能获取到马保国老师的热度数据了。
![](https://filescdn.proginn.com/14c42694b7fd07be8ec8b2f33c278fdc/e7c802bd71b37f739aa35d4d60aaa558.webp)
后面还有百度资讯、媒体、需求图谱、人群年龄、性别、兴趣分布数据接口,就不一一介绍了。
感兴趣的同学可以自行去查看文档。
03 头条指数
![](https://filescdn.proginn.com/a253efcf7e595754315ecf1f4d1227a2/04611e9c194366794941e8a73af2ec9f.webp)
获取指定关键词的头条指数。
# 头条指数
import gopup as gp
index_df = gp.toutiao_index(keyword="马保国", start_date='20201115', end_date='20201125')
print(index_df)
接口挂了,不知为何~
还有相关性、情感、地域、城市、年龄、性别、用户阅读兴趣分析数据等接口。
04 谷歌数据
需要通过代理才能使用,不过上面这三类已经完全够用了。
# 谷歌数据
import gopup as gp
index_df = gp.google_index(keyword="马保国", start_date='2020-11-15T10', end_date='2020-11-25T23')
print(index_df)
05 宏观经济数据
有一个杠杆率的数据可以使用。
# 杠杆数据
import gopup as gp
df_index = gp.marco_cmlrd()
print(df_index)
不懂经济学,所以不明觉厉。
![](https://filescdn.proginn.com/26594b047e012ba640773d48f6933180/2e8daa91349dfde4407edbcbf1ab20a7.webp)
06 新经济数据
这个数据倒是蛮有趣的,主要是公司数据。
比如独角兽和倒闭公司的数据。
# 独角兽公司数据
import gopup as gp
df_index = gp.nicorn_company()
print(df_index)
一共是240家独角兽公司。
![](https://filescdn.proginn.com/40036147cd9945949ad5987cd3fe78b1/c1f2c107313f9ce1ee23e2623b2764e8.webp)
蚂蚁、字节、阿里云、滴滴,都是行业中的大佬。
# 倒闭公司数据
import gopup as gp
df_index = gp.death_company()
print(df_index)
倒闭的公司一共有6921家。
![](https://filescdn.proginn.com/760b310ab9e25102036c04321bb5b575/4f53273a67f1b96517e5343f6b834474.webp)
看到不少P2P的公司。
剩下还有有一个特许经营许可数据,好像是吊牌销售的意思。
前段时间看到一篇文章,讲的就是南极人吊牌销售的事情,南极人都不自己搞生产,而是代工。
07 KOL数据&信息数据
主要是微博的KOL,所以没啥用。
# KOL数据
import gopup as gp
g = gp.pro_api(token = "……")
df_index = g.weibo_user(keyword="雷军")
print(df_index)
信息数据是新闻联播文字稿。
08 中国油价数据
包含汽油和柴油的调价信息数据。
# 油价数据
import gopup as gp
df_index = gp.energy_oil_hist()
print(df_index)
时间从2000年直到2020年,细数20年油价变化。
![](https://filescdn.proginn.com/16abe652b2155041bcf250df9278a9b5/5e1936454a7910bdd2f07310cc7002e5.webp)
09 百度迁徙数据
可以用来做飞线图或者OD图。
# 迁徙数据
import gopup as gp
migration_area_baidu_df = gp.migration_area_baidu(area="湖北省", indicator="move_in", date="20200201")
print(migration_area_baidu_df)
单次返回100个城市的数据。
![](https://filescdn.proginn.com/2bd71fdeeb37606c57e4b6fbd19c6cf6/2214d5212b5002ca1d1527d8e3bac215.webp)
10 影视数据
实时电影票房数据,最近又有病例出现,数据应该也比较惨淡。
这里需要一个WebDES.js文件,才能请求成功。
# 实时电影票房数据
import gopup as gp
df_index = gp.realtime_boxoffice()
print(df_index)
「如果声音不记得」当日1千万的票房,太少了。
![](https://filescdn.proginn.com/b35eb34064e16ae031f928482bd938dd/79831437a9d612ac22e5e4dc4c984099.webp)
单日影院数据,今年影院能倒闭一大堆。
# 单日影院数据
import gopup as gp
df_index = gp.day_cinema(date="2020-12-08")
print(df_index)
得到票房前100的数据。
![](https://filescdn.proginn.com/632d81770555693a5ea1dbaa219ca9bb/ac50367791eed3b770402379e6f71765.webp)
最高应该是8万多的收入。
实时电视剧播映指数,天气冷了选个好剧或者综艺,窝在被窝刷起来。
# 电视剧数据
import gopup as gp
df_index = gp.realtime_tv()
print(df_index)
大秦赋,也在看,感觉还不错。
![](https://filescdn.proginn.com/76f8440b9c2334c6d2e382fb04b2f456/27c882ac54fc59d6bc52c142923656b0.webp)
还有实时综艺播映指数、艺人商业价值、流量价值等数据。
11 全国高等学校数据
普通高等学校名单,包含名称、主管部门,所在省市、所在地、办学层次等信息。
# 普通高等学校数据
import gopup as gp
df_index = gp.university()
print(df_index)
一共是2631所高校。
![](https://filescdn.proginn.com/4787d0800aa989b4a432ac153f0e911d/b93cef10854f2688e1763e27e033cc61.webp)
还有成人高等学校以及高等学校详情数据。
12 疫情数据
有网易、丁香园、百度三家的疫情数据。
# 世界历史累计确诊数据
import gopup as gp
covid_163_df = gp.covid_163(indicator="世界历史累计数据")
print(covid_163_df)
目前累计207个国家有疫情出现。
![](https://filescdn.proginn.com/9a3dfc7369a6e49f6ea6bf796be9e784/96b8e5bb62be379a061b6e92b74fe2e9.webp)
全世界总共就233个国家和地区,快接近90%了。
由于数据接口太多了,就不一一介绍了,可以点击左下角的阅读原文,查看文档。
![](https://filescdn.proginn.com/b6f8f799565ba665effcc214f15bbd45/58121bf118e9aae5f6d08a52804c1b84.webp)
推荐阅读
欢迎长按扫码关注「数据管道」