二次元属性被稀释,B站还剩什么?| 数据分析

裸睡的猪

共 3717字,需浏览 8分钟

 ·

2020-03-03 23:25

本文为HeoiJin原创投稿文章,欢迎更多读者投稿!


作者简介
HeoiJin:立志透过数据看清世界的产品策划,专注爬虫、数据分析、产品策划领域。
万物皆营销 | 资本永不眠 | 数据恒真理
CSDN:https://me.csdn.net/weixin_40679090


本篇目录

51ad7806f01006b511c0836c6fb3d584.webp


一、前言

本篇章为《二次元属性被稀释,B站还剩什么?》系列篇的下篇。在上篇当中我们已经完成了数据的采集,那么本篇将着重对采集到的数据进行对比分析及可视化。

PS:由于篇幅关系,本文仅展示核心代码,详细源代码可移步至文末Github地址或阅读原文。


二、项目特色

  1. 利用pandas库对数据进行分类聚合
  2. 利用pyecharts和帆某的Bi软件对数据进行可视化实战
  3. 结合DT财经的数据分析B站2019至2020的变化

三、项目准备

  • 语言:Python 3.7
  • IDE :Pycharm
  • 浏览器:Chrome
  • 插件:ChromeDriver
  • 库:Pandas、pyecahrts、snapshot_selenium
  • 其他:Fine Bi

四、问题定义

4.1 关键词定义

在进行分析前,要先确认什么是二次元和三次元,具体通过什么标准进行划分。
二次元」一词来自于日语「二次元(にじげん)」,本义为「二维」,引申为「在纸面、屏幕等平面上展示的动画、游戏等作品中角色」。「三次元(さんじげん)」也被引申用来指现实中的人物。——萌娘百科二次元:动画(Animations即ACG的A)、漫画(Comics即ACG的C)、游戏(Games即ACG的G)。三次元:现实世界。——维基百科

即在爬取的所有分区当中,可以明显归类为二/三次元的分区分别是:二次元:动画、国创相关、游戏
三次元:科技、数码、生活、时尚、娱乐
其余的鬼畜、舞蹈、音乐、影视则因为兼备二次元和三次元的属性,定义为2.5次元[滑稽]。

4.2 确立目标

完成对分区进行属性划分之后,就可以开始确立研究目标:
  • 分析B站综合评分前100中,什么分区是占比最多?用户在不同分区的行为情况如何。
  • 分析B站各分区情况,找出各分区的播放量情况及用户行为情况
  • 分析热门标签变化
  • 针对B站变化,洞悉背后的行为和心理本质

五、数据分析实战

5.1 数据预清洗

在进入正式的分析之前,先使用 df.info()了解下抓取到的数据情况。
79cad14d4efa7aa10f99a9d9f1a9de36.webp通过上面打印数据可看出:共有14列、1300行,没有缺失值。但要注意的是,这里我们先把全站榜排除在外,避免重复计算,后面的分析都基于下面得出的数据df_without_all
#波浪线~表示不选取该部分df_without_all=df[~df['rank_tab'].isin(['全站'])]

5.2 全站综合评分top100系列

5.2.1各分区占比情况可视化

数据处理思路及核心代码:
  • 对df_without_all按综合评分降序,切片取前100项
  • 获取分区名列,统计每个分区出现次数

cb37fea646424fdb56cd933fdf3233c2.webp得到一个分区名为index,频次为values的Series。


d29879cde215eaf4e2e12c9b93a0345f.webp

接下来使用pyecahrts的玫瑰图进行可视化处理。
相比于Excel或者Fine Bi,pyecahrts的玫瑰图制作非常友好,而且颜值方面也不错。
核心代码:
10359909bb3068195b9502fcc0b97f98.webp

bd706036b3ccfe566b4c290881897cfe.webp
在未找到2019年相关播放量的官方数据情况下,暂与2018年的财报数据进行比较。
经比对,生活、动画的排名分别提升至第1名和2名,可以说动画依旧是B站比较重要的一部分
而娱乐、游戏、科技跌出榜单,时尚、鬼畜、音乐成为新秀,总体看完全属于二次元的视频占比较低,仅占27%

5.2.2各分区平均情况数据处理

数据处理思路及核心代码:
  • 对df_without_all按照综合评分进行降序排序,并获取前100项
  • 以分类名作为行索引对DataFrame进行分组,求出平均数

b6b8edfd581e186975c5c73cd4bfb9ff.webp
0b68dcf40fe8fa37c0115d2beed01444.webp对数据进行处理完成之后,分为三部分进行可视化
  1. 播放情况分析
  2. 平均三连情况可视化及分析
  3. 平均评论、弹幕、转发量情况可视化及分析

5.2.3 平均播放量情况可视化及分析

只需要分类名作为维度,平均播放量作为指标即可。对单维度单指标进行可视化时,可以有柱状图、折线图、面积图等多种选择,这里我选择其中的柱状图进行可视化。思路和核心代码:
  • 获取数据,构建分类名和平均播放量的列表
  • 创建柱状图,并加入Javascript语句制作渐变色

06507645c92f53c273ade52d61c03b24.webp

0effe82440003ea33c9bfeb2f3c0b7ab.webp

动画区以微弱的优势超过时尚区成为平均播放量的top1,是否意味着二次元依旧是B站的主场?
并不然,回看动画区的详细数据,按播放量进行降序,可以看到,排名第一的《【哔哩哔哩2020拜年祭】》播放量是排名第二的5.74倍。
而时尚区的前两名仅为1.6倍,即动画区的播放量被平均。
a7ac7f1bf169058807e245a7ce90b2ab.webp

5.2.4 平均三连情况可视化及分析

投币、 点赞和收藏行为的计量单位为人数,相对于播放量以人次作为计量单位,更能精准地反映用户喜好情况。这里使用pyecharts的雷达图进行可视化。
核心代码:
8e04ec29354cce27707c28f10a81a293.webp988eb05b6bdc1789f8d1c37cd18f9227.webp
尽管动画区存在黑马视频,但生活区平均投币和点赞量依然高于动画区

5.2.5 平均评论、弹幕、转发量情况可视化及分析

pyecahrts的混合图表在代码实现上复杂,比较于Fine Bi,性价比极低。因此这部分使用Fine Bi进行数据的可视化,不多赘述,直接上图。
b0c3b428c2ba9ada4ea341b2082f5db4.webp
动画区的平均弹幕量表现很不错,但是评论量和分享则表现平平。话题性和自传播性的高门槛,导致二次元无法如三次元一样具有爆发性增长的能力。在部分增长速度低于整体增长速度时,必然看到B站二次元属性被稀释的现象。

5.3 各区top100系列

以上,只针对了综合评分前100的数据进行初步的分析,为避免出现幸存者误差的逻辑谬误,下面将对所有分区的top100进一步的分析,并联系DT财经数据进行对比分析。

5.3.1数据预处理

处理思路
  • 对df_without_all按分区名进行分类
  • 统计出每个分区各情况数据的均值
  • 存入csv

39a57444d19e3b22bf66c8e53371abab.webp

5.3.2 播放量均值情况

思路及核心代码:
  • 读取分区名和播放量数据
  • 对播放量数据进行缩放
  • 绘制折线图表

c627126c172050f3db35b78e28a5304d.webp

992fab50342ecbf8943c143f09439f9c.webp


对比DT财经在2019年的数据,除去我们没有采集到放映厅、番剧、广告分区,生活区依然是B站播放量的巨头
动漫区因拜年祭的火热,由第三升至第二。值得注意的是,各分区top100的平均播放量,相对于19年的数据都有大幅度的增长,生活区热门视频的平均播放量翻了两番。

5.3.3 用户行为数据均值对比

pyecharts折线图的制作方式已在上文提及,那么这部分的可视化就交由Bi软件帮我们完成,不多展开。
a2664250aa3c0042e05b476f4e6ad267.webp
继续与DT财经的数据进行对比,除去番剧、放映厅和广告区,在DT财经的各项数据指标中,几乎是动画区一家独大。而到了2020年,则能看到百花齐放的现状,二次元在不同指标的龙头地位都被各三次元分区瓜分,生活区更是拿到了多数指标的头把交椅

5.4 热门标签

同样在处理数据之前,先了解下数据结构是怎么样的。
e4df3d2ce86ddea20e83936e5b5301d0.webp
观察可知每一项数据里面包含了N个标签,因此,需要将标签列先转化为一个无嵌套的Series,后统计每一个唯一标签出现的次数。核心代码:
74d1d75c869f84c89cd083a5c9e25ac7.webp
94af47ea168f7b6e2311b2d6c7be23bd.webp
对比于DT财经统计的2019年3至4月热门视频的标签频次统计,历时一年后,搞笑依然是B站热门视频中出现频率最多的标签,鬼畜也依旧在显眼位置。从今年的词云中能找到不少与生活密切关联的标签,有我们正在经历的抗击肺炎大作战,也有每次都订立目标,但总是败给吃吃吃的瘦身塑形和减肥。

六、项目总结

创立十载的B站,发展成仅APP的DAU就高达3千3百万的大平台。从二次元社区到综合视频社区,原有的二次元属性必被稀释。回归到最初的问题:1、二次元属性的稀释情况如何?
二次元依然是B站核心的组成部分。但从B站的商业布局来看,直播线、综艺线、Vlog线等更多贴合生活的内容将进一步稀释二次元属性。2、什么分区是B站的龙头?
拥有更广受众面的生活区逐步成为B站主流,而且这种趋势会更加明显。在大众传播学提出过这么一个理论——沉默的螺旋:即大众的更大众,小众的更小众,传播学中的马太效应。3、B站的主流用户喜欢什么标签的视频?
搞笑依旧是B站用户最热爱的标签。毕竟在残酷的社会环境中,幽默是稀缺的资源。4、本次分析带来什么思考?
B站从二次元成功转型为综合型网站,获得腾讯、阿里等巨头投资成功上市,而处于寒冬的我们,也要不断地增值升级,才能迎来暖春。最后希望B站能越来越好,不忘初心!源码地址(或阅读原文):https://github.com/heoijin/Bilibili-Rnak
郑重声明:本项目及所有相关文章,仅用于经验技术交流,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。
参考文献:
1、《数据解读 | 我们研究了B站,发现它很不“二次元”》-DT财经:https://mp.weixin.qq.com/s/EObWtXz1yxsZhvZQVKnk3g
2、2020中国移动互联网“战疫”专题报告- QuestMobile2020:https://www.questmobile.com.cn/research/report-new/81
3、产品分析报告|B站,从二次元社区到综合视频社区- FMR:http://www.woshipm.com/evaluating/2102696.html

浏览 87
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报