p值是什么?统计学家用最简单的方式告诉你
机器学习算法与Python实战
共 3899字,需浏览 8分钟
·
2022-01-01 23:10
↓↓↓点击关注,回复资料,10个G的惊喜
作者:Amond Lee 机器之心(ID:almosthuman2014)编译 参与:李诗萌、一鸣
导读
即使是没有任何统计学基础的读者朋友可能也听说过「p 值」,但是鲜有文章能够清楚解释 p 值是什么,以及 p 值在统计学中的作用。本文是 TowardDataScience 的一篇博文,作者条理清楚地解释了 p 值的相关内容,并给出了一个简单的例子,适合读者参考。
还记得我作为暑期实习生第一次在 CERN 海外实习时,大多数人都在讨论,要超过「5-sigma」阈值(这意味着 p 值为 0.0000003)才能确认发现了希格斯玻色子。
那时我对 p 值、假设检验甚至统计显著一无所知。
直到进入数据科学领域后,我终于意识到了 p 值的含义,以及在某些实验中,p 值是如何成为决策工具的一部分的。
因此,我决定在这篇文章中解释什么是 p 值以及如何在假设检验中使用 p 值。希望能帮你更好、更直观地理解 p 值。
本文共分四个部分,从假设检验到理解 p 值,以及根据 p 值指导我们的决策过程。我强烈建议你仔细阅读全文,以便详细地了解 p 值:
假设检验; 正态分布; 什么是 p 值; 统计显著性。
Part1假设检验
在讨论 p 值的意义之前,我们先理解一下假设检验。在假设检验中,常用 p 值确定结果的统计显著性。
假设检验 正态分布 p 值
零假设——平均配送时间小于等于 30 分钟; 备择假设——平均配送时间大于 30 分钟。
Part2正态分布
68% 的数据在平均值(μ)±1 个标准差(σ)内; 95% 的数据在平均值(μ)±2 个标准差(σ)内; 99.7% 的数据在平均值(μ)±3 个标准差(σ)内。
Part3什么是 P 值
p 值用数字(概率)回答了这一问题。 p 值越低,证据越令人惊讶,零假设越荒谬。
p 值不能证明任何事。这只是一种根据惊讶程度做出合理决策的基础方法。
——Cassie Kozyrkov
想象我们生活在平均配送时间小于等于 30 分钟的世界——因为我们信任披萨店(我们最初的信念)! 分析收集的配送时间样本后,p 值为 0.03,低于 0.05 的置信水平(假设在实验之前就设置好了),因此可以说结果是具有「统计显著性」的。 因为我们一直相信披萨店可以在 30 分钟内配送披萨,现在需要考虑的是这一信念是否仍然有意义,因为结果告诉我们,披萨店没能兑现承诺,而且结果是具有统计学意义的。 那该怎么办?我们先试着用各种方法使初始信念(零假设)成立。但是因为披萨店的口碑越来越差,并且经常找导致配送延迟的借口,我们自己都觉得再相信披萨店是很可笑的事情,因此,我们决定拒绝零假设。 最终,我们做出了不再从这家披萨店买披萨的合理决定。
Part4统计显著性
陈述零假设; 陈述备择假设; 确定 alpha 值; 找到和 alpha 水平相关的 Z 分数; 根据公式计算检验统计量; 如果检验统计量的值比 alpha 水平的 Z 分数小(或 p 值小于 alpha 值),拒绝零假设。否则,接受零假设。
原文:TowardDataScience
链接:https://towardsdatascience.com/p-values-explained-by-data-scientist-f40a746cfc8)
推荐阅读
决策树可视化,被惊艳到了! 开发机器学习APP,太简单了 200 道经典机器学习面试题总结 卷积神经网络(CNN)数学原理解析 收手吧,华强!我用机器学习帮你挑西瓜 为了这个GIF,我专门建了一个网站 【保姆级教程】白嫖老外的云服务器
三连在看,月入百万👇
评论