中断可继续,10w+,无 cookie 微博评论抓取网站上线

共 1181字,需浏览 3分钟

 ·

2022-06-24 11:38

点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 131 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。

补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。

无 cookie

不需要 cookie或者说对于使用者来说,感受不到 cookie 的存在,即可 run,这是最基本的特征。

评论上限可达 10w+

此处抓取的评论不是同步从 weibo.com 抓取的,因此同一条微博的,抓取的结果和 weibo.com 看到的评论有时差,笔者觉得无伤大雅。

和微博话题只能最近几十页的数据相比,无 cookie 评论的上限大概在 10w+ 这个量级,实测最多抓到 30w。能抓到 10w+,不是说网页上显示有 10w 条就能抓到 10w 条,

一来博主可能精选评论,二来微博会过滤,评论的数量显示只会往多了显示;除开这些原因,显示 100w+ 评论大概率能抓到 10w+

字段丰富

抓取保存的 csv 文件包括评论时间、评论文本、评论 ID、评论点赞数等评论本身信息和评论用户名、评论用户关注数、粉丝数、性别、所在地、是否认证等评论用户信息。

可以从上次中断的继续抓取

字面意思,比如这次抓到 1w 条停了,下次可以继续上次停的地方继续抓取,这是自动配置的,使用者不用设置即可自动继续。一次抓取结束可以下载当前的结果文件。

共享数据集

其他人抓取好一个微博 30w 的评论数据集,如果你有同样的需求,输入微博 id 后,无需抓取,可以直接下载。微博 id 可以是纯数字 id,也可以是数字字母混合 id,它会自动转化成纯数字 id。最后的结果文件也是按照 {数字id}.csv 这样的格式命名的。

使用指南

网站全量开启 https 安全访问,地址为:

https://weibo-comment-crawl.buyixiao.xyz/

网站对所有人开放,但执行抓取需要密钥,密钥获取地址

https://afdian.net/p/4c1ad92aeaf311ec971752540025c377

为了服务器和网站的持续稳健运行,密钥设置为付费获取,一旦泄露随时可能更新。本网站适合长期有大量评论抓取需求或者特定字段要求的读者使用,如果至是一次性使用,建议使用 新增 ip 属地,抓得更多,微博超级评论爬虫大更新。它是有 cookie 的,抓到的评论基本和 weibo.com 看到的保持一致。

浏览 57
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报