数据集 | 2023 bilibili 视频评论数据集,以「川大张薇」热搜视频为例

共 1091字,需浏览 3分钟

 ·

2023-06-21 18:50

欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。 

BuyiXiao,何许人也?本衡州一乡野村夫,身高八尺不足,年方二十有余;弱冠之年曾求学于潭州,为谋生计,背井离乡,远赴京畿,我本南人,不习北土,兼有故友,威逼利诱,急于星火,遂下岭南,打工未半,中道创业,所为何业?赛博朋克,智能硬件;假工程师之名,行农民工之实,满腹经纶,无用书生,善于自黑,贻笑大方。 

笔者水平有限,可能暂时无法将非常干货的教程讲的不拖泥带水又不哗众取宠,公众号文章诸多遗漏或不妥之处,可以加月小水长微信「2391527690」备注「学校专业/研究方向/工作岗位」进行交流。

另外,文末点下「」和「在看」,这样每次新文章推送,就会第一时间出现在你的订阅号列表里。

使用 bilibili 评论爬虫,抓取了站内关于川大张薇事件最火的一个视频的评论数据。

标题:不开除张某保研资格,就是寒了天下人的心!

链接:https://www.bilibili.com/video/BV1Zo4y1N7f1

BV 号:BV1Zo4y1N7f1

一共抓取到 15000 余条评论,数据为 excel 可以打开的 csv 格式。可以点击下方百度网盘链接进行下载:

链接:https://pan.baidu.com/s/1mFXeq6UOaNZ050GAs8L6OA

提取码:lcve

爬虫代码和工具在今天的另外一篇推送,如果有 Python 环境,运行爬虫代码,如果没有,直接双击工具,输入你想要爬取的视频的 BV 号就行,比如淄博烧烤、指鼠为鸭话题下的一些热门视频,可以同时爬取多个视频,具体参考今天的另外一篇推送。

如果你爬取保存结果文件了之后,想做一些简单的分析,可以用下面这个网站。

https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual

把评论时间和评论内容这两个字段改成 publish_time 和 content,然后上传到网站,就能一键多维度分析。

你可以选择按照月、天、小时、分四个维度查看评论数和评论情感演化趋势,这里选择按分钟查看。

还可以生成词云,并且直接在网站上设定停用词。

还有其他更多的功能,以及本人开发的一些数据分析工具集合,欢迎自由探索。

https://tools.buyixiao.xyz/

往期精选


自研小红书评论区自动回复软件,于繁杂的客服流水作业中抽身

2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论

CBDB | 可视化历史名人的关系和足迹

小红书帖子和评论自助提取工具

浏览 19
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报