GitHub 出了一款爬虫神器!还给出了详细教程!FightingCoder共 1642字,需浏览 4分钟 ·2021-02-05 23:08 “ 阅读本文大概需要 5 分钟。 ”对于做爬虫和数据分析方向的小伙伴来说,对于数据的获取是十分重要的,尤其是关于大数据分析的数据,非常难以获取,最近小编在浏览 Github 时,就发现了一个宝库——gopup。是由一个国内的大神开源的python库,该库包含了大量的大数据分析相关的数据,一起来看看吧。01.神器 GoPup项目的地址为:https://github.com/justinzm/gopup。该库所采集的数据都是公开的数据源,作者也指出了通过该库所获取的数据主要目的是用于学术的研究。该项目所涉及到的数据库包含了微博指数数据、百度指数数据、头条指数数据、新经济公司、生活数据、疫情数据等信息。可以看到,上述的数据中,都包含了大量的大数据分析数据,可以通过该项目库直接获取来使用。gopup 的安装也十分的便捷,在终端运行pip install gopup即可安装。02.如何使用接下来,我们通过程序来看一下如何使用 gopup 来获取数据。首先来看一下,百度指数的数据获取,程序和结果如下图所示:上图中,可以看到,首先我们需要先在网页端登录百度指数,然后获取 cookie 数据,拿到 cookie 数据后,就可以调用 gopup 库的 baidu_search_index 函数来查询指定时间段内的指定关键词的搜索热度。这里我们搜索的就是 2020 年 10 月 1 号到 2020 年 12 月 1 号的 62 天的 “口罩” 搜索指数。返回的是 DataFrame 格式的数据。那么如何获得 cookie 呢?首先打开百度指数网站并登录,然后点击 F12 进入开发者模式后,点击 Network 后,点击任意一个 url 的链接,翻到最下方就可以获取到 cookie 数据。接下来我们来获取一下汽油和柴油的历史调价信息,程序和结果如下所示:可以看到,对于调价信息,只需要一行代码即可帮助我们搞定。gopup 不仅仅可以抓取到生活信息,还可以帮助我们抓取影视信息方面的数据,例如实时的电影票房数据、实时电视剧播映指数、艺人商业价值等信息,程序和结果如下图所示:上述的程序给出的是实时电视剧播映指数数据,可以看到,最近比较火的电视剧为张鲁一、段奕宏领衔主演的《大秦赋》和李易峰、金晨主演的《隐秘而伟大》。这两部剧在豆瓣上的评分都在 8 分以上,可谓是收视率和口碑的双丰收。上图给出的是艺人商业价值的排行榜(详细的 csv 可以在文末获取),杨紫、易烊千玺和杨幂分列前三位,这份榜单是根据商业价值来进行排序,在专业热度、关注热度等信息方面,不同的明星热度排名也是不相同的。03.详细的文档作者在项目中不仅给出了安装方式,而且还出了中文文档(http://doc.gopup.cn/),大家可以直接到作者提供的中文文档中进行学习,作者给出的中文文档非常的详尽。以百度的搜索数据为例,我们需要重点关注的有四个点,分别是目标地址、输入参数、输出参数和接口示例,其中接口示例给出了程序如何调用的详细说明,让大家一看就明白该如何使用。还要注意的是,影视数据获取的程序,必须在 Ubuntu 环境下运行,否则 js 数据无法正确返回结果。以上就是小编为大家带来的 gopup 库的介绍,大家也赶快安装 gopup ,发现更多更有趣的大数据应用吧。另外使用这个库需要一个js补丁,小编已经为大家准备好了!原公号「菜鸟学 Python」后台直接输入:补丁爆文推荐万万没想到,“红孩儿” 竟然做了程序员,还是 CTO!95 后程序员月薪 2 万背着电脑送外卖,送单途中改 BugChrome 更新了,反爬又变强了,该怎么破?点下在看,你最好看 浏览 17点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 GitHub出了一款爬虫神器!还给出了详细教程!菜鸟学Python0新书出了公子龙0JetBrains 又出了一款新神器,一套代码适应多端!Java技术迷0JetBrains 又出了一款新神器,一套代码适应多端!Java技术驿站0JetBrains 又出了一款新神器,一套代码适应多端!码农突围0JetBrains 又出了一款新神器,一套代码适应多端!Java高效学习0出了差错出了差错0微软出了一个Python小白神器!菜鸟学Python0JetBrains 又出了一款新神器,一套代码适应多端!Java后端编程0牛逼!JetBrains 又出了一款编程神器!协同编程!极客挖掘机0点赞 评论 收藏 分享 手机扫一扫分享分享 举报