数据集 | 2023 bilibili 视频评论数据集,以「川大张薇」热搜视频为例
欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。
BuyiXiao,何许人也?本衡州一乡野村夫,身高八尺不足,年方二十有余;弱冠之年曾求学于潭州,为谋生计,背井离乡,远赴京畿,我本南人,不习北土,兼有故友,威逼利诱,急于星火,遂下岭南,打工未半,中道创业,所为何业?赛博朋克,智能硬件;假工程师之名,行农民工之实,满腹经纶,无用书生,善于自黑,贻笑大方。
笔者水平有限,可能暂时无法将非常干货的教程讲的不拖泥带水又不哗众取宠,公众号文章诸多遗漏或不妥之处,可以加月小水长微信「2391527690」备注「学校专业/研究方向/工作岗位」进行交流。
另外,文末点下「赞」和「在看」,这样每次新文章推送,就会第一时间出现在你的订阅号列表里。
使用 bilibili 评论爬虫,抓取了站内关于川大张薇事件最火的一个视频的评论数据。
标题:不开除张某保研资格,就是寒了天下人的心!
链接:https://www.bilibili.com/video/BV1Zo4y1N7f1
BV 号:BV1Zo4y1N7f1
一共抓取到 15000 余条评论,数据为 excel 可以打开的 csv 格式。可以点击下方百度网盘链接进行下载:
链接:https://pan.baidu.com/s/1mFXeq6UOaNZ050GAs8L6OA
提取码:lcve
爬虫代码和工具在今天的另外一篇推送,如果有 Python 环境,运行爬虫代码,如果没有,直接双击工具,输入你想要爬取的视频的 BV 号就行,比如淄博烧烤、指鼠为鸭话题下的一些热门视频,可以同时爬取多个视频,具体参考今天的另外一篇推送。
如果你爬取保存结果文件了之后,想做一些简单的分析,可以用下面这个网站。
https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual
把评论时间和评论内容这两个字段改成 publish_time 和 content,然后上传到网站,就能一键多维度分析。
你可以选择按照月、天、小时、分四个维度查看评论数和评论情感演化趋势,这里选择按分钟查看。
还可以生成词云,并且直接在网站上设定停用词。
还有其他更多的功能,以及本人开发的一些数据分析工具集合,欢迎自由探索。
https://tools.buyixiao.xyz/
往期精选