二次元属性被稀释,B站还剩什么?| 数据分析
裸睡的猪
共 3717字,需浏览 8分钟
·
2020-03-03 23:25
本文为HeoiJin原创投稿文章,欢迎更多读者投稿!
作者简介
HeoiJin:立志透过数据看清世界的产品策划,专注爬虫、数据分析、产品策划领域。
万物皆营销 | 资本永不眠 | 数据恒真理
CSDN:https://me.csdn.net/weixin_40679090
本篇目录
一、前言
本篇章为《二次元属性被稀释,B站还剩什么?》系列篇的下篇。在上篇当中我们已经完成了数据的采集,那么本篇将着重对采集到的数据进行对比分析及可视化。
PS:由于篇幅关系,本文仅展示核心代码,详细源代码可移步至文末Github地址或阅读原文。
二、项目特色
- 利用pandas库对数据进行分类聚合
- 利用pyecharts和帆某的Bi软件对数据进行可视化实战
- 结合DT财经的数据分析B站2019至2020的变化
三、项目准备
- 语言:Python 3.7
- IDE :Pycharm
- 浏览器:Chrome
- 插件:ChromeDriver
- 库:Pandas、pyecahrts、snapshot_selenium
- 其他:Fine Bi
四、问题定义
4.1 关键词定义
在进行分析前,要先确认什么是二次元和三次元,具体通过什么标准进行划分。「二次元」一词来自于日语「二次元(にじげん)」,本义为「二维」,引申为「在纸面、屏幕等平面上展示的动画、游戏等作品中角色」。「三次元(さんじげん)」也被引申用来指现实中的人物。——萌娘百科二次元:动画(Animations即ACG的A)、漫画(Comics即ACG的C)、游戏(Games即ACG的G)。三次元:现实世界。——维基百科
即在爬取的所有分区当中,可以明显归类为二/三次元的分区分别是:二次元:动画、国创相关、游戏
三次元:科技、数码、生活、时尚、娱乐
其余的鬼畜、舞蹈、音乐、影视则因为兼备二次元和三次元的属性,定义为2.5次元[滑稽]。
4.2 确立目标
完成对分区进行属性划分之后,就可以开始确立研究目标:- 分析B站综合评分前100中,什么分区是占比最多?用户在不同分区的行为情况如何。
- 分析B站各分区情况,找出各分区的播放量情况及用户行为情况
- 分析热门标签变化
- 针对B站变化,洞悉背后的行为和心理本质
五、数据分析实战
5.1 数据预清洗
在进入正式的分析之前,先使用df.info()
了解下抓取到的数据情况。通过上面打印数据可看出:共有14列、1300行,没有缺失值。但要注意的是,这里我们先把全站榜排除在外,避免重复计算,后面的分析都基于下面得出的数据df_without_all。
#波浪线~表示不选取该部分
df_without_all=df[~df['rank_tab'].isin(['全站'])]
5.2 全站综合评分top100系列
5.2.1各分区占比情况可视化
数据处理思路及核心代码:- 对df_without_all按综合评分降序,切片取前100项
- 获取分区名列,统计每个分区出现次数
得到一个分区名为index,频次为values的Series。
相比于Excel或者Fine Bi,pyecahrts的玫瑰图制作非常友好,而且颜值方面也不错。
核心代码:
在未找到2019年相关播放量的官方数据情况下,暂与2018年的财报数据进行比较。
经比对,生活、动画的排名分别提升至第1名和2名,可以说动画依旧是B站比较重要的一部分。
而娱乐、游戏、科技跌出榜单,时尚、鬼畜、音乐成为新秀,总体看完全属于二次元的视频占比较低,仅占27%。
5.2.2各分区平均情况数据处理
数据处理思路及核心代码:- 对df_without_all按照综合评分进行降序排序,并获取前100项
- 以分类名作为行索引对DataFrame进行分组,求出平均数
对数据进行处理完成之后,分为三部分进行可视化:
- 播放情况分析
- 平均三连情况可视化及分析
- 平均评论、弹幕、转发量情况可视化及分析
5.2.3 平均播放量情况可视化及分析
只需要分类名作为维度,平均播放量作为指标即可。对单维度单指标进行可视化时,可以有柱状图、折线图、面积图等多种选择,这里我选择其中的柱状图进行可视化。思路和核心代码:- 获取数据,构建分类名和平均播放量的列表
- 创建柱状图,并加入Javascript语句制作渐变色
动画区以微弱的优势超过时尚区成为平均播放量的top1,是否意味着二次元依旧是B站的主场?
并不然,回看动画区的详细数据,按播放量进行降序,可以看到,排名第一的《【哔哩哔哩2020拜年祭】》播放量是排名第二的5.74倍。
而时尚区的前两名仅为1.6倍,即动画区的播放量被平均。
5.2.4 平均三连情况可视化及分析
投币、 点赞和收藏行为的计量单位为人数,相对于播放量以人次作为计量单位,更能精准地反映用户喜好情况。这里使用pyecharts的雷达图进行可视化。核心代码:
尽管动画区存在黑马视频,但生活区的平均投币和点赞量依然高于动画区。
5.2.5 平均评论、弹幕、转发量情况可视化及分析
pyecahrts的混合图表在代码实现上复杂,比较于Fine Bi,性价比极低。因此这部分使用Fine Bi进行数据的可视化,不多赘述,直接上图。动画区的平均弹幕量表现很不错,但是评论量和分享则表现平平。话题性和自传播性的高门槛,导致二次元无法如三次元一样具有爆发性增长的能力。在部分增长速度低于整体增长速度时,必然看到B站二次元属性被稀释的现象。
5.3 各区top100系列
以上,只针对了综合评分前100的数据进行初步的分析,为避免出现幸存者误差的逻辑谬误,下面将对所有分区的top100进一步的分析,并联系DT财经数据进行对比分析。5.3.1数据预处理
处理思路- 对df_without_all按分区名进行分类
- 统计出每个分区各情况数据的均值
- 存入csv
5.3.2 播放量均值情况
思路及核心代码:- 读取分区名和播放量数据
- 对播放量数据进行缩放
- 绘制折线图表
对比DT财经在2019年的数据,除去我们没有采集到放映厅、番剧、广告分区,生活区依然是B站播放量的巨头。
动漫区因拜年祭的火热,由第三升至第二。值得注意的是,各分区top100的平均播放量,相对于19年的数据都有大幅度的增长,生活区热门视频的平均播放量翻了两番。
5.3.3 用户行为数据均值对比
pyecharts折线图的制作方式已在上文提及,那么这部分的可视化就交由Bi软件帮我们完成,不多展开。继续与DT财经的数据进行对比,除去番剧、放映厅和广告区,在DT财经的各项数据指标中,几乎是动画区一家独大。而到了2020年,则能看到百花齐放的现状,二次元在不同指标的龙头地位都被各三次元分区瓜分,生活区更是拿到了多数指标的头把交椅。
5.4 热门标签
同样在处理数据之前,先了解下数据结构是怎么样的。观察可知每一项数据里面包含了N个标签,因此,需要将标签列先转化为一个无嵌套的Series,后统计每一个唯一标签出现的次数。核心代码:
对比于DT财经统计的2019年3至4月热门视频的标签频次统计,历时一年后,搞笑依然是B站热门视频中出现频率最多的标签,鬼畜也依旧在显眼位置。从今年的词云中能找到不少与生活密切关联的标签,有我们正在经历的抗击肺炎大作战,也有每次都订立目标,但总是败给吃吃吃的瘦身塑形和减肥。
六、项目总结
创立十载的B站,发展成仅APP的DAU就高达3千3百万的大平台。从二次元社区到综合视频社区,原有的二次元属性必被稀释。回归到最初的问题:1、二次元属性的稀释情况如何?二次元依然是B站核心的组成部分。但从B站的商业布局来看,直播线、综艺线、Vlog线等更多贴合生活的内容将进一步稀释二次元属性。2、什么分区是B站的龙头?
拥有更广受众面的生活区逐步成为B站主流,而且这种趋势会更加明显。在大众传播学提出过这么一个理论——沉默的螺旋:即大众的更大众,小众的更小众,传播学中的马太效应。3、B站的主流用户喜欢什么标签的视频?
搞笑依旧是B站用户最热爱的标签。毕竟在残酷的社会环境中,幽默是稀缺的资源。4、本次分析带来什么思考?
B站从二次元成功转型为综合型网站,获得腾讯、阿里等巨头投资成功上市,而处于寒冬的我们,也要不断地增值升级,才能迎来暖春。最后希望B站能越来越好,不忘初心!源码地址(或阅读原文):https://github.com/heoijin/Bilibili-Rnak
郑重声明:本项目及所有相关文章,仅用于经验技术交流,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。参考文献:
1、《数据解读 | 我们研究了B站,发现它很不“二次元”》-DT财经:https://mp.weixin.qq.com/s/EObWtXz1yxsZhvZQVKnk3g
2、2020中国移动互联网“战疫”专题报告- QuestMobile2020:https://www.questmobile.com.cn/research/report-new/81
3、产品分析报告|B站,从二次元社区到综合视频社区- FMR:http://www.woshipm.com/evaluating/2102696.html
评论