《我们与恶的距离》豆瓣剧评分析

共 3309字，需浏览 7分钟

·

2021-03-16 11:56

《我们与恶的距离》是一部非常有深度的台剧。演员的演技无可挑剔，剧情编排也很新颖，而且逻辑严谨，剧情环环相扣，不拖泥带水。剧中出了很多火遍全网的台词，如“所以爱会消失，对不对？”，“我们都是好人。不知道为什么事情会变成这样子，老天爷到底要我们学什么。”

该剧上映于2019年春，已经两年了，多次在朋友圈看到该剧的好评。记得我看了一小段，但因为那段时间工作非常忙就被中断了（另一个原因是我基本不看电视剧，我看的上一部电视是《琅琊榜》，中间几年一部没看过）。最近刷到B站知名up主在推荐这部剧，所以我在周末一口气看完了（全剧共10集）。

对于剧中要探讨的诸多问题，也许我们正在经历，也许我们未来会经历。但无论何时，假设身临其境地面对，都需要足够的勇气。顺着该剧每集开始的提醒，我建议对这部剧感兴趣的人，一定要酌情观看，尤其是年龄较低的朋友最好别看。

本文不会对剧中的内容和观点做深入的讨论和评价，只分析豆瓣网友对这部剧的评论和感受。

一、爬取豆瓣剧评

打开豆瓣首页，搜索剧名，进入《我们与恶的距离》的详情页。

然后向下滚动页面，找到豆瓣短评。

点击全部短评进入评论详情页面，每一页有20条评论。按F12，鼠标前后翻页抓取网页请求信息。

根据网页信息可以得到请求方式为GET，同时获取到Request URL，Request Headers，Cookies。有了这些信息，就可以写代码爬取短评内容了。

爬虫的核心代码如下：

drama_code = 30181230
base_url = "https://movie.douban.com/subject/{}/comments".format(drama_code)
for i in range(25):
    params = {'percent_type': '', 'start': str(20*i), 'limit': '20', 'status': 'P', 'sort': 'new_score',
              'comments_only': '1', 'ck': 'qN8_'}
    try:
        # 发送GET请求获取数据,headers和cookies从浏览器中获取
        response = requests.get(base_url, headers=headers, cookies=cookies, params=params)
        if response.status_code != 200:
            break
        result = response.json()
        print('[INFO]第{}页数据获取成功。'.format(i + 1, ))
    except Exception as e:
        print('[ERROR]第{}页数据获取失败:{}'.format(i + 1, e))

代码中使用requests库向豆瓣发送GET请求，一次请求可以获取一页评论数据，改变URL中的start，循环多次发送请求，即可获取所有的评论数据。

网页爬取成功后，用正则表达式匹配需要用到的数据，依次写到excel中(文末提供完整代码的获取方式)。

出于豆瓣的限制，非登录状态下只能获取到11页数据(220条)，登录状态下只能获取到25页数据(500条)，不用爬虫，人工在网页上浏览也是如此。不过，豆瓣会优先把点赞(有用)数高的评论排在前面(但不是完全降序)，所以获取到的500条评论是相对点赞更多的，已经可以满足我们的要求了。

二、数据有效性验证

拿到了数据，先验证一下数据是否可用，主要判断评论中是否有重复的用户名，以及是否每个用户都看过这部剧。

对用户名进行验证，重名用户数为0，获取到的500条评论来自不同用户，没有重复用户的情况下评论更客观。

对用户是否都看过此剧进行验证，所有评论用户都“看过”。

根据验证结果，可以确认所有评论都是有效评论。

三、评论分析和数据可视化

1. 500位用户分别打了多少星？

豆瓣的1星到5星对应“很差”，“较差”，“还行”，“推荐”和“力荐”，在获取的数据中有11个用户没有打星，可以设置为0星。从用户打星的分布来看，5星超过了60%，4星和5星超过了80%，与文章开头的截图基本吻合。

2. 评论中主要在讨论些什么？

从评论词云来看，网友的评论主要围绕以下三个方面：

讨论剧中的受害者和家属等人物之间的关系
讨论民主、法治等社会问题，也有不少人讨论剧中具体的问题，如精神病患，新闻，编辑室，律师等
认为该剧是年度最佳华语剧集

3. 评论热词被提到了多少次？

根据热词提取结果，评论中被提到最多的词是“社会”，大部分网友在讨论剧中暴露出来的社会问题。而其他的热词如“受害者”、“精神”、“新闻”等都可以理解成社会问题中的一部分。

4. 评论获得了多少网友的赞同？

从评论的赞同数分布来看，大部分评论的赞同数都小于100。不过有4%的评论获得了超过500次赞，说明网友对评论点赞有很强的“马太效应”，点赞高的评论更可能排在前面，被更多人看到，然后获得更多的赞。

5. 热评都获得了多少点赞？

点赞数前三的评论都获得了超过了1W次点赞，超过了点赞数小于100的90%评论的总点赞数，再次说明“马太效应”的存在。

6. 点赞前三的评论内容是什么？

台剧质量都已经拍到这个深度了，国产剧还在拍什么家长里短，情情爱爱。。。。
韩剧在稳中求变，台湾剧在爆发式突变。我们的剧以不变应万变（反正没人看）
民众在斩草，政府在除根，媒体在浇水，只有王赦在研究土壤。

大家对剧的质量都是有要求的，在大部分电视剧毫无突破时，出现一部有深度的好剧，确实会引导观众去思考。

看到剧名《我们与恶的距离》时，我的第一感受是对英文剧名《The world between Us》的音译。看完整部剧，我也没有感受到“恶”的阴暗感，至于这部剧是在探讨我们与恶的距离，还是我们与爱的距离，亦或是其他的东西，都没有观众看完后去认真思考重要。

这也是我对网友评论感兴趣的原因。

四、代码获取

点击关注公众号“Python碎片”，然后在后台回复“theworld”关键字，可以获取本文代码和数据。

浏览 168

点赞

收藏

分享

举报

评论

图片

表情

我们与恶的距离

我们与恶的距离

我们与恶的距离

哲学家拉斯·弗雷德里克·H.史文德森对邪恶现象进行了哲学审视。他结合来自哲学、文学、心理学、神学和科

少年与恶的距离

儿童精神科医生揭露未成年犯罪的真相——从教育、司法、社会，乃至我们每个人，如何一步步将需要救助的孩子

少年与恶的距离

少年与恶的距离

路过人间 (电视剧《我们与恶的距离》插曲)

路过人间 (电视剧《我们与恶的距离》插曲)

我们与书的距离

我们与书的距离

我们与天空的距离 Η απόσταση ανάμεσα στον ουρανό κι εμάς

我们与天空的距离 Η απόσταση ανάμεσα στον ουρανό κι εμάς

我们与爱的距离

我们与爱的距离

别让我走远 (电视剧《我们与恶的距离》主题曲)

别让我走远 (电视剧《我们与恶的距离》主题曲)

我们的距离

我们的距离

点赞

收藏

分享

举报