独家 | 可视化101:选取合适类型的可视化图表(下)
作者:Mariya Mansurova
翻译:陈之炎
校对:赵茹萱
本文约2500字,建议阅读16分钟
本文介绍了可视化案例。
在上文中,我们从框架开始,通过讨论数据可视化,为实际用例选取最为合适的图表。具体而言,我们分析了时间序列与名称比较的可视化示例,在下文中,我们将继续分析其他案例的可视化示例。
偏差
推荐图表
当需要比较不同的度量时,使用可视化来传达这一想法的最佳方法是采用柱状图和基线的组合。
在我先前的一篇关于酒店评论主题建模的研究文章中做了这样的可视化,我比较了每个特定主题连锁酒店客户评论的份额和基线(全部评论的平均比率),并强调了与颜色明显不同的部分。
此外,当有一个显示偏离预测值的任务时,可以使用折线图比较预测值和事实数据的偏差,我喜欢用虚线表示预测值,以强调它不像真实值那么可信。
作者生成可视化图片
这种折线图的情况比前文讨论的要复杂一些,需要使用Plotly 图形对象来定制图形,而非使用Plotly Express。
排序
推荐图表
毫无疑问,可以使用类似于名称比较的条状图,唯一需要记住的细微差别是依据感兴趣的指标对图表上的数据段进行排序。例如,可以根据年度商品总价值来可视化排位前3的地区。
作者生成可视化图片
部分到整体
推荐图表
最直接的解决方案是使用条形图来显示不同类别的细分份额,为了使可视化更容易解释,按降序排序数值。 作者生成可视化图片
上述方法同时适用于多个数据段,有时,使用堆叠的条形图比较结构会更容易,例如,可以按年龄查看不同地区的客户份额。
作者生成可视化图片
这种情况下通常会采用饼图,但我不建议你这么做,从视觉感知研究中可知,比较角度或区域比仅仅比较长度更具挑战性,所以,柱状图是最好的。
此外,可能还会有其他任务,需要观察随着时间的推移而出现的结构变化。理想的选择是用一个面积图,它将显示通过斜率进行数据细分和趋势划分(这就是为什么它是比以月作为分类的条形图更好的选择)。
作者生成可视化图片
可以使用Plotly中的px.area函数创建面积图。
频率分布
- 是正态分布的吗?
- 是单一模态的吗?
- 数据中有无异常值?
推荐图表
频率分布的首选是直方图(垂直柱状图通常没有类别之间的边界),我通常更喜欢规一化的直方图,因为它们比绝对值更容易解释。 如果要查看多个指标的频率分布,则可以同时绘制多个直方图。在这种情况下,使用归一化直方图至关重要。否则,如果不同组别中对象的数量不同,则将无法进行分布对比。
例如,可以比较来自英国和瑞士客户的年度GMV可视化分布情况。
作者生成可视化图片
我使用了matplotlib实现这一可视化,因为喜欢 matplotlib的默认设计,我更偏爱 matplotlib 而非采用Plotly的直方图。
如果想比较多个类别的分布,那么在同一图上画出多个直方图将是富有挑战性。所以,建议使用方框图,它们显示的信息较少(只有中位数、四分位数和异常值),虽然需要对观众做出解释,然而,对于多类别分布来说,这可能是最好的选择。 例如,来看看不同地区在现场所花费时间的分布。
作者生成可视化图片
如果不记得如何阅读方框图,这里有一个方案,可以提供一些提示。 图片来自维基百科(来源)|CCBY-SA2.5授权
来浏览一下用方框图进行可视化的构建模块:
- 可视化图上的方框显示了IQR(四分位数范围)-25%和75%的百分位数,
- 方框中间的线指定了中位数(50%的百分位数),
- 须等于1.5 * IQR,或等于数据集中的最小/最大值,
- 如果你有任何一个比1.5*IQR(异常值)更极端的数字,将它们描述为图上的点。
相关性
推荐图表
散点图是显示这些值之间的相关性的最佳解决方案,可能还需要添加一条趋势线来突出显示度量标准之间的关系。
作者生成可视化图片
如果数据点众多,那么可能会面临散点图的问题:不可能看到有全部数据点的结构,因为它们相互重叠。在这种情况下,减少不透明度可能会有助于揭示数据之间的关系。
例如,对比下面两个图,第二种方法更好理解数据的分布。
作者生成可视化图片
使用Plotly图形对象来画这个图形,因为它是定制的,要创建这样的图,需要指定两个轨迹——一个用于散点图,另一个用于回归线。
将回归线作为第二个轨迹非常必要,不这样做的话,它会被散点图所覆盖。 此外,还可以显示两个变量的频率分布,这实现起来并不费力,可以使用 seaborn库中的联合绘图来实现,代码如下。
作者生成可视化图片
至此,已经涵盖了数据可视化的全部用例。
这是我需要知道的全部可视化类型吗?
下面是一些示例:
- 针对客户旅程地图的Sankey图或太阳爆发图;
- 需要显示地理数据时,请使用Choropleth数据;
- Word云提供一个高水平的文本视图。
如果想看到多条线的趋势时使用Sparklines。
为了获得灵感,通常使用诸如Plotly 或seaborn等流行的可视化库。
此外,还可以询问ChatGPT关于数据显示的可能选项,它会提供一个相当合理的指南。 由作者提供截图
总结 在整篇文章中,我们讨论了数据可视化的基础知识:
- 为什么需要可视化数据?
- 在开始研究可视化工作之前,应该问自己什么问题?
- 基本的构建模块是什么,哪些最让观众容易感知?
- 数据可视化的常用用例是什么?可以使用哪些图表类型来解决这些问题?
希望本文所提供的框架将助您不被各种选项所困扰,为观众创造出更好的可视化图表。
感谢拔冗阅读本文,如果您有任何后续的问题或评论,请在评论区留下它们。
原文标题:
Visualisation 101: Choosing the Best Visualisation Type 原文链接: https://towardsdatascience.com/visualisation-101-choosing-the-best-visualisation-type-3a10838b150d
译者简介
陈之炎, 北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步
翻译组招募信息
工作内容: 需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到: 定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利: 来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“ 阅读原文 ”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击 “阅读原文” 拥抱组织