《我们与恶的距离》豆瓣剧评分析

Python 碎片

共 3309字,需浏览 7分钟

 ·

2021-03-16 11:56


《我们与恶的距离》是一部非常有深度的台剧。演员的演技无可挑剔,剧情编排也很新颖,而且逻辑严谨,剧情环环相扣,不拖泥带水。剧中出了很多火遍全网的台词,如“所以爱会消失,对不对?”,“我们都是好人。不知道为什么事情会变成这样子,老天爷到底要我们学什么。


该剧上映于2019年春,已经两年了,多次在朋友圈看到该剧的好评。记得我看了一小段,但因为那段时间工作非常忙就被中断了(另一个原因是我基本不看电视剧,我看的上一部电视是《琅琊榜》,中间几年一部没看过)。 最近刷到B站知名up主在推荐这部剧,所以我在周末一口气看完了(全剧共10集)。


对于剧中要探讨的诸多问题,也许我们正在经历,也许我们未来会经历。但无论何时,假设身临其境地面对,都需要足够的勇气。顺着该剧每集开始的提醒,我建议对这部剧感兴趣的人,一定要酌情观看,尤其是年龄较低的朋友最好别看。



本文不会对剧中的内容和观点做深入的讨论和评价,只分析豆瓣网友对这部剧的评论和感受。


一、爬取豆瓣剧评


打开豆瓣首页,搜索剧名,进入《我们与恶的距离》的详情页。



然后向下滚动页面,找到豆瓣短评。



点击全部短评进入评论详情页面,每一页有20条评论。按F12,鼠标前后翻页抓取网页请求信息。



根据网页信息可以得到请求方式为GET,同时获取到Request URL,Request Headers,Cookies。有了这些信息,就可以写代码爬取短评内容了。


爬虫的核心代码如下:


drama_code = 30181230
base_url = "https://movie.douban.com/subject/{}/comments".format(drama_code)
for i in range(25):
    params = {'percent_type''''start': str(20*i), 'limit''20''status''P''sort''new_score',
              'comments_only''1''ck''qN8_'}
    try:
        # 发送GET请求获取数据,headers和cookies从浏览器中获取
        response = requests.get(base_url, headers=headers, cookies=cookies, params=params)
        if response.status_code != 200:
            break
        result = response.json()
        print('[INFO]第{}页数据获取成功。'.format(i + 1, ))
    except Exception as e:
        print('[ERROR]第{}页数据获取失败:{}'.format(i + 1, e))


代码中使用requests库向豆瓣发送GET请求,一次请求可以获取一页评论数据,改变URL中的start,循环多次发送请求,即可获取所有的评论数据。


网页爬取成功后,用正则表达式匹配需要用到的数据,依次写到excel中(文末提供完整代码的获取方式)。


出于豆瓣的限制,非登录状态下只能获取到11页数据(220条),登录状态下只能获取到25页数据(500条),不用爬虫,人工在网页上浏览也是如此。不过,豆瓣会优先把点赞(有用)数高的评论排在前面(但不是完全降序),所以获取到的500条评论是相对点赞更多的,已经可以满足我们的要求了。



二、数据有效性验证


拿到了数据,先验证一下数据是否可用,主要判断评论中是否有重复的用户名,以及是否每个用户都看过这部剧。



对用户名进行验证,重名用户数为0,获取到的500条评论来自不同用户,没有重复用户的情况下评论更客观。



对用户是否都看过此剧进行验证,所有评论用户都“看过”。

根据验证结果,可以确认所有评论都是有效评论。


三、评论分析和数据可视化


1. 500位用户分别打了多少星?



豆瓣的1星到5星对应“很差”,“较差”,“还行”,“推荐”和“力荐”,在获取的数据中有11个用户没有打星,可以设置为0星。从用户打星的分布来看,5星超过了60%,4星和5星超过了80%,与文章开头的截图基本吻合。


2. 评论中主要在讨论些什么?



从评论词云来看,网友的评论主要围绕以下三个方面:


  • 讨论剧中的受害者和家属等人物之间的关系

  • 讨论民主、法治等社会问题,也有不少人讨论剧中具体的问题,如精神病患,新闻,编辑室,律师等

  • 认为该剧是年度最佳华语剧集

3. 评论热词被提到了多少次?



根据热词提取结果,评论中被提到最多的词是“社会”,大部分网友在讨论剧中暴露出来的社会问题。而其他的热词如“受害者”、“精神”、“新闻”等都可以理解成社会问题中的一部分。


4. 评论获得了多少网友的赞同?


从评论的赞同数分布来看,大部分评论的赞同数都小于100。不过有4%的评论获得了超过500次赞,说明网友对评论点赞有很强的“马太效应”,点赞高的评论更可能排在前面,被更多人看到,然后获得更多的赞。


5. 热评都获得了多少点赞?



点赞数前三的评论都获得了超过了1W次点赞,超过了点赞数小于100的90%评论的总点赞数,再次说明“马太效应”的存在。


6. 点赞前三的评论内容是什么?


  1. 台剧质量都已经拍到这个深度了,国产剧还在拍什么家长里短,情情爱爱。。。。

  2. 韩剧在稳中求变,台湾剧在爆发式突变。我们的剧以不变应万变(反正没人看)

  3. 民众在斩草,政府在除根,媒体在浇水,只有王赦在研究土壤。


大家对剧的质量都是有要求的,在大部分电视剧毫无突破时,出现一部有深度的好剧,确实会引导观众去思考。


看到剧名《我们与恶的距离》时,我的第一感受是对英文剧名《The world between Us》的音译。看完整部剧,我也没有感受到“恶”的阴暗感,至于这部剧是在探讨我们与恶的距离,还是我们与爱的距离,亦或是其他的东西,都没有观众看完后去认真思考重要。

这也是我对网友评论感兴趣的原因。


四、代码获取


点击关注公众号“Python碎片”,然后在后台回复“theworld”关键字,可以获取本文代码和数据。


浏览 165
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报