如何像数学系同学那样入门概率论?
抽象是隐藏无关紧要的内容,而只关注重要的细节。尽管有时看起来有点可怕,却是掌控复杂性的最佳工具。
如果你让 n 个数学家来定义数学到底是什么,你可能会得到 2n 个不同答案。在我看来,它将事物抽象化到只剩下核心要素,并为推理任何事物提供了最终的框架。
回到主题,你有没有想过概率到底是什么呢?你肯定已经使用过它来推理数据,进行统计分析,甚至通过统计学习来构建算法进行推理。在这篇文章中,我们将深入这个奇特的世界,并且认真仔细地去思考和探索概率论。
1预备知识
大家不需要任何高等数学知识就能继续读下去,本文会从头开始解释一切。不过,如果知道以下知识就更轻松了,
集合以及求并集、交集和差的运算。 极限的概念以及一些基本的微积分。
2集合和测度
我们可以直观地将概率看成一个函数,测量一个事件发生的可能性。但从数学上说,目前还不清楚什么是事件
和测度
。在正确讨论概率之前,我们需要先打下坚实的基础。那么,就让我们从事件
开始。
Ξ事件
"用这个骰子掷出的数字是奇数的概率是多少?"
当我们谈到概率的时候,脑海中就会显现这个例子。在这个简单问题中,事件就是掷出的点子是一个奇数。下面我们使用集合论来建立数学模型。
首先,包含实验结果的基本集是
因此,要定义概率,首先需要一个基本集
必须满足三个条件。
1、基本集
是一个事件。 2、如果
是一个事件,则它的补集 也是一个事件。比如上面例子, 掷出的不是奇数
也是一个事件。3、事件的并集也是事件。也就是说,(事件或另一个事件)也是一个事件。换句话说,
对求并运算是封闭的。比如( 掷出 1
或者掷出 6
)是一个事件。
如果满足这些条件,则
1、 2、 3、
看上面这个例子,可以有,
其中,
那么问题来了,有了基本集
不是量子,
比如你现在并不是拿它玩麻将或者游戏,而是每次出门前让它给你算一卦。什么,骰子也能算卦吗?可以的,比如你的幸运数字是
那么,只要它掷出的是这两个数字之一,就表示一个幸运事件,意味着出门会有好事找你。如果不是这两个数字呢,自然是另外四个数字之一,说明不会有好事找你,当然也不是说一定是坏事找你,总之,称为非幸运事件。
用上面的数学语言来说,
这里基本集
总结一下,事件对应一个子集,事件集是由一系列子集构成的集合,只是必须满足上面三条,在一定运算规则下封闭
意味着事件可以通过运算组成新的事件,并且这个新事件仍然在这个事件集里面。
打个不恰当的比方,基本集相当于规定了各种原子,原子可以构建各种物质,物质之间可以组合成新物质,事件就相当于物质。
另外,当
Ξσ-代数
我们用
假设要在矩形板上射击,如果说事件空间是包含所有矩形子集的最小
1、对 -代数有了一个比较简单的描述。 2、将包含各种形状,因为 -代数在并集下是封闭的。
如下所示,很多集合就可以描述为无限个矩形区域的并集,即可以用矩形通过求并集
运算组装出各种形状。
我们将板内部的矩形集称为生成集,而将最小的
你可以将这一生成过程视为采用生成集中的元素以及并集和补集运算来生成所有子集。
现在我们有了一个数学框架来处理事件,下面将把注意力转移到测度上。
Ξ测度
尽管直观上很清楚,但是要正确地将其形式化是非常困难的。测度其实就是将集合映射成数字的一个函数。考虑一个简单的例子,测量三维物体的体积,这似乎很简单,但是仍然会有严重的问题。
有兴趣的童鞋可以看看类似这种视频[1]更加直观地了解一下。但如果你不是数学系的,也不用太纠结于 Banach-Tarski 悖论或者定理到底怎么回事,你只要知道它的重要意义在于让人们意识到有些子集是不可测的。
那么在这种情况下,测度到底是什么呢?我们不直接从集合的测度是多少来定义,而是从测度应该具有的性质来入手。实际上,我们只有三个要求,
测度应该是正的; 空集的测度应为 0; 两个不相交的集合的测度之和,应该等于它们并集的测度。
为了正确定义它们,我们需要一个基本集
函数
是测度,如果它满足,
1、 对于所有 ,有 2、 3、 如果 是两两不相交的,则有
其中,特性 3 称为
这个定义貌似有些抽象,但其实是对体积的一种推广。这可能看起来有点奇怪,但这三个属性是最重要的,其它一切都来自它们。例如,我们有
这是因为
另一个重要特性是测度的连续性,即
1、 如果 ,则有
2、 如果 ,则有
该属性与实值函数的连续性定义类似。
正如上面对于
3概率的定义
现在,以数学方式定义概率的准备工作已经到位。
所谓的概率空间是由一个三元组
因此,概率与面积和体积之类的量密切相关。面积、体积和概率都是它们自己空间上的测度。但是,这是一个非常抽象的概念,因此我们举几个例子来进一步解释。
Ξ抛硬币
最简单的概率空间由抛硬币事件来描述。假设我们用 0 表示正面朝上和用 1 表示反面朝上。
由于
Ξ随机数字
一个更有趣的示例与随机数生成有关。如果你熟悉 Python,则可能使用了 random.random()
函数,该函数为你提供 0 到 1 之间的随机数。尽管这看起来很神秘,但用概率空间来描述它非常简单。
再次注意,只要给出生成集元素的概率就足以。例如,我们有
要看一个更复杂的示例,
其中对于所有
同样,因为它对所有
任何
可见,概率为 0 的事件也是会发生的。
4分布和密度
我们走了很长一段路。但是,从实际的角度来看,使用测度和
为了简单起见,假设我们的基本集是实数集。具体来说,我们有概率空间
包含我们必须了解的有关概率测度的所有信息。考虑一下,我们有
对于所有
1、 对于所有 ,有 2、 如果 ,则有 3、 和 4、
第 4 点称为左连续性。如果不熟悉连续性的定义,这里不管它也没关系,它现在不是必需的。同样,如果这太抽象了,我们来看一个例子。对于前面的随机数生成示例,我们有
这称为
总而言之,如果你给我一个概率测度,我将给你一个描述概率测度的分布函数。然而,这并不是分布函数的最佳妙处。从数学的角度来看,如果你给出的函数满足上面 4 条,那么我也可以从中构造出概率测度。而且,如果两个分布函数在任何地方都相等,那么它们对应的概率测度也相同。因此,从数学角度来看,分布函数和概率测度在某些情况下是相同的。这点非常有用。
Ξ密度函数
如我们所见,分布函数从概率测度中获取所有信息,并从本质上对其进行压缩。这是一个很棒的工具,但有时并不方便。例如,当我们只有分布函数时,很难计算期望值。
在实际中,我们往往用密度函数来描述概率测度。函数,
是概率测度
直观地说,给定集合的概率由
你可能对微积分中著名的牛顿-莱伯尼兹公式很熟悉。在这里,
基本上意味着,如果分布函数是可微的,则其导数就是密度函数。然而对于某些概率分布,只有密度函数能以封闭形式表示。(具有封闭形式意味着可以用有限个标准运算和基本函数表示它。)最著名的分布之一就是高斯分布。它的定义为,
其中,
我们无法以封闭形式表示高斯分布函数,这个多少有点令人惊讶。但并不是数学家们还没有算出来,而是证明了这是不可能的。有时,数学上证明不可能的事情也是很难的。
5然后呢?
到目前为止,我们仅仅是比较数学地定义了概率,所看到的只是冰山一角。
⟳参考资料⟲
分球悖论: https://www.bilibili.com/video/av2674104/
[2]σ-algebra: https://en.wikipedia.org/wiki/%CE%A3-algebra
[3]Tivadar Danka: https://towardsdatascience.com/the-mathematical-foundations-of-probability-beb8d8426651