一个爬取用户所有微博的爬虫,还能断网续爬那种

月小水长

共 1691字,需浏览 4分钟

 ·

2020-08-13 08:28

    点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 51 篇原创干货

熟悉这个微博超级话题爬虫系列的都知道,我已经停止对有GUI功能集中版本的维护了,集中精力维护无GUI版本功能独立版本的开发和维护,并且保证每个功能都是最小可用产品且互不干扰。但是功能独立版本一直有个历史遗留问题:没有将集中版本中爬取每个用户的所有微博的功能独立出来,刚好今天有空,我也觉得是时候写点东西了,于是就有了这篇文章。

整体的剥离过程来算比较轻松,因为功能集中版本每个功能都有一个相对独立的类,这个用户微博爬虫就是一个 WeiboUserScrapy 类,只不过在集中版本中为了和其他功能模块进行通信和协调,引进了 PyQT5 的信号量,以及一些公共配置变量,独立时将这些东西去掉即可。

代码的地址放在文末阅读原文,拿到代码后,你需要做的两件事依次是:

  1. 更换代码中的 Cookie
  2. 把 user_id 改成你想要爬取的用户 id(是纯数字)
然后运行代码即可,不一会儿你就能在项目的根目录下的 user 文件夹看到诸如{user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}关注.csv' 格式的文件,爬取的微博都保存在这里。
按道理,这篇文章到此就可以收尾了。但是想了想,想到老铁们可能有这样的问题:某个博主有 4w 条微博,爬了 2w 条突然断网了或者 Cookie 过期了,难道要重新爬?
 
作为良心博主,当然要加一个断点续爬的功能,其实实现起来也不难,每次写 csv 的时候同时将翻页参数 page 保存并更新到一个配置文件中即可,核心代码如下:
user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
    page = 1
    with open(user_page_config,'w', encoding='utf-8-sig'as f:
        f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
    with open(user_page_config,'r', encoding='utf-8-sig'as f:
        page = json.loads(f.read())[f'{self.user_id}']

random_pages = random.randint(15)
for page in range(page, page_num + 1):
    self.get_one_page(page)  # 获取第page页的全部微博

    with open(user_page_config,'r', encoding='utf-8-sig'as f:
        old_data = json.loads(f.read())
        old_data[f'{self.user_id}'] = page

    with open(user_page_config,'w', encoding='utf-8-sig'as f:
        f.write(json.dumps(old_data, indent=2))
这样,就能右键运行代码,开开心心做其他事去,不用每时每刻盯着代码。
最后就是一点碎碎念了,断更的这一个月中,我正式成为了一名社畜,一个北漂,全职在北京西二旗某互联网厂工作,因此个人可用的时间相比在校少了许多,但是这个微博爬虫呢,我会继续维护的,公众号也会加油更的,请大家多多支持。哦,别忘了,阅读原文取代码,跑数据。
浏览 37
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报