如何用本福特分析模型发现问题?

林骥

共 2171字,需浏览 5分钟

 ·

2021-04-22 04:15

你好,我是林骥。

上周有个读者跟我说,建议在文章标题中写上分析思维模型的名称。

我觉得这个建议很好,在这篇文章的末尾处,增加了第 001 号至 013 号分析思维模型的名称和链接,方便你选择查看自己感兴趣的模型。

据粗略估计,分析思维模型超过 100 种,但是按照二八法则,在实际工作中,常用的模型应该不超过 20 种。

按照要事优先的原则,我计划在精选大约 20 种分析思维模型之后,开始考虑把重心放在模型的实践应用上面。以后再根据实际情况,适当进行增加和补充,这将是一个长期的过程。

今天介绍第 014 号分析思维模型:本福特分析模型

1. 模型介绍

20 世纪 20 年代,物理学家弗兰克·本福特发现,科学研究和工程设计中遇到的数据,有 30% 左右都以 1 为首位数。

此后 10 年,本福特坚持不懈地探索这个现象,通过举一反三,发现更多符合该规律的数据,比如网球得分、股票价格、河流长度、原子量、电费单等等,全都有着相同的模式。

本福特这种孜孜不倦的精神,值得我们学习。

1938 年,他推导出一套精确的计算公式:

其中 = 1~9,根据这个公式,就能计算出每个首位数的比例如下:

5409a8e58da247a43a7412ebbd3e9574.webp

本福特是以非零数字为首位数,所以 0 不包括在内,例如 126 和 0.0126 的第一个数字都是 1。

需要注意的是,有些数据并不适用于本福特定律,例如:电话号码、邮政编码、年龄、体重、智商,等等。

2. 应用举例

下面以 Tableau 自带的世界指标数据为例,验证世界各地区的 GDP 首位数是否符合本福特分析模型。

(1)打开 Tableau 自带的【世界发展指标】数据

9a0491ee8a19134e4705ea58cd6ad25b.webp

(2)创建计算字段【GDP首位数】,输入公式:LEFT(STR([GDP]),1)

0115dd307622018a1f56e5d215e16d6b.webp

(3)把【GDP首位数】拖至【列】,把【记录数】拖至【行】,下拉选择【快速表计算】--【合计百分比】,在【筛选器】中排除 Null 值之后,得到 GDP 首位数的比例分布如下:

368525c00c35a876c911704d7cc404ea.webp

可以看出,世界各地区的 GDP 数据基本符合本福特分析模型。

(4)为了更加直观地进行验证,我们创建一个计算字段【本福特参考比例】,输入公式:LOG(1+1/INT([GDP首位数]))

(5)把【本福特参考比例】拖到【详细信息】标记中,更改度量为【平均值】。

52057dc75f7148e8225d8dc6fcdaead3.webp

(6)切换到【分析】窗格,把【分布区间】拖到画布的【单元格】中。

93ddc1d2041cfe0c59be80d4f08740b5.webp

(7)把【计算-值】中的百分比改成 80,100,120,并选择【平均值(本福特参考比例)】。

904b313a33094389262c1fc2f13427d2.webp

(8)设置参考区间的格式,标签和线设置为【无】,向下填充为【蓝色】。

da6a641007e38ee8d4883a36a7eedcfb.webp

(9)点击确定后,可以看出,GDP 首位数的比例,均介于本福特参考比例的 80% ~ 120% 之间。

6d5981d2993e7285100876200be67da6.webp

本福特分析模型可以用来发现问题,但并不能以此作为确凿的证据,因为本福特分析模型只是统计上的一种规律,并没有经过严格的证明,而且有其适用的范围。

比如说,跨度较小的数据一般不符合本福特分析模型。

在世界指标数据中有一列:开业天数,最大值不超过 700 天,按照上面的步骤,首位数分布如下:

0e692f70fd162887d9f88ca29e346ab1.webp

可以看出,其中数字 3、5、6 都不符合本福特分析模型

利用本福特分析模型,我们可以发现可疑的数据,通过大胆假设,小心求证,探究数据背后隐藏的信息,从而帮助我们更好地解决问题。

虽然本福特分析模型目前无法确凿地证明,但是先发现一些数据的规律,然后再来找到数据背后可能的原因,而这正是模型的力量和魅力所在。

比如说,对于上市公司的财务数据,我们可以应用本福特分析模型去验证一下,如果发现首位数的比例严重偏离模型,那么就有理由去怀疑财务数据造假,再通过调查取证等方法,去验证我们的假设。

最后的话

分析思维模型,是对现实世界的抽象和简化,它的价值是能够重新定义问题,从而找到更高效的解决方案。

统计学家乔治·博克斯有一句名言:所有的模型都是错误的,但有些是有用的。

应用分析思维模型的时候,我们要保持警惕,不要被数据或模型所误导。

如果数据或模型应用不当,那么就像开车时看一个不准的仪表盘,对司机来说,错误的速度数据,比没有数据更危险,后果不堪设想。

如果数据和模型应用得当,那么就像看病时配备先进的仪器,利用正确的数据和经验,能帮助我们找到真正的病因。

犯错并不在于数据或模型本身,而在于使用数据和模型的人。

数据和模型的意义,并不是进行无数次高深的数学计算,而是在于更好地洞察现象背后的成因。

看完《人生算法》的序言之后,我相信:只要是能够量化的事物,就能用算法和分析思维模型去优化它。

用分析的视角、概率的思维、模型的算法,去解决工作和生活中的各种难题,这是我正在探索的一条路。

努力去做那些大概率对人生有益的事,比如读书、写作、利他。

避开那些小概率但致命的风险,比如赌博、飙车、害人。

91167eb474b1c2be94825ceb3c48595a.webp

001号:福格行为模型

002号:杜邦分析模型

003号:矩阵分析模型

004号:夏普利值模型

005号:RFM分析模型

006号:销售漏斗模型

007号:正态分布模型

008号:幂律分布模型

009号:A/B测试模型

010号:线性回归模型

011号:相关分析模型

012号:聚类分析模型

013号:帕累托分析模型

74916692c8c7af184cdd983046ec1748.webp

关注林骥的公众号,更多干货早知道。欢迎加入我的免费知识星球,点击左下角的阅读原文即可加入。如果你觉得文章对你有帮助或启发,麻烦你动动手指支持鼓励一下,分享、收藏、点赞、看,谢谢!☟分享 ☟收藏    点赞 ☟在看
浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报