最小二乘法的本质是什么？-轻识

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转自：深度学习与计算机视觉

作者：梨梨喵
https://www.zhihu.com/question/37031188/answer/70840126

最小二乘法的本质是最小化系数矩阵所张成的向量空间到观测向量的欧式误差距离.

最小二乘法的一种常见的描述是残差满足正态分布的最大似然估计
模型具有如下形式:

是基函数
残差满足正态分布

于是有:

对于N个独立的样本

与

独立

, 得到最大似然估:

得到最小欧式距离

, 即是最小二乘法

作者：Elliot Huang
https://www.zhihu.com/question/37031188/answer/888897619

很好的回答了什么是最小二乘和为什么用最小二乘，但本质这个东西实在太玄妙了，我尝试从“法”的角度谈谈自己对最小二乘‘法’的认识。

假设我们需要预测每个省的在淘宝买东西花的钱 t 和该省平均房价 y 的关系，我们用数学符号表达下： y = N(t) + e

这里的 N(t) 就是我们要找的数学模型，但是实际上我们永远也没有办法找的真的 N，所以那就次点，找个近似的模型 M(t) 吧。为了判断这个 M 找的准不准，我们用实际的数据考察一下，也就是实际的房价和预测的房价的差，或者叫残差。如果残差的平方和很小，那么我们可以认为这个模型和之前的数据拟合的很好，这个就是我们要找的的模型啦。

回头看下，这个找模型的过程实际上是在找理想和预测差值的最小平方和。假设我们的模型很简单：.

我们用表示第 i 个数据的残差，。注意这里的描述的是模型内部的系数，即

假设我们现在有个数据，这个残差的平方和用来表示:

(忽略这里的1/2，为了后面微分的方便)。

以上就是最小2乘问题的介绍和定义。解决最小二乘问题实际上是求解方程 .

实际上像梯度法、高斯法、牛顿法、L-M法、狗腿法(Powell)、都是在解决非线性的最小二乘问题。

作者：UFO
https://www.zhihu.com/question/37031188/answer/700993426

这个问题既然问的是本质，那么我就不罗列性质了，性质成千上万，高票答案基本都是这类型的。

回想一下，大家第一次见到平方和是在哪里？肯定不是统计吧，那是高中/大学课程。

正确答案：初中课程中的勾股定理。

所以本质就是：

勾股定理和欧氏几何的平行公理等价。
平行公理定义欧氏空间。
欧氏空间是平坦的、线性的、各向同性的。（用爱因斯坦的话来说就是空间曲率为0）

为什么最小二乘法好使？因为我们处于空间曲率近似为0的空间，多数的物理量和物理定理都满足欧氏空间的特性。

实际上，高斯对于最小二乘法的认识，很有钦定的意味：假定最小二乘法最优，那么如何如何。至于为什么它最优，抱歉，高斯本人也不知道。

第一个真正证明最小二乘法最优的是Maxwell。他的证明主要基于空间对称性，而这正是欧氏空间的特点。

问题：什么时候最小二乘不好使？

回答：假如把你扔到1-范数空间，就不要用最小二乘了。那里的误差不满足正态分布，而是满足拉普拉斯分布。

Laplace：某个高票答案diss我不如Gauss，其实我只是跑到了另一个空间而已。

问题：不知道什么空间怎么办？

回答：还是用最小二乘吧。线性计算比较简单，而且采样足够多了，都是正态分布。（中心极限定理）

问题：最小二乘法的本质是什么？

回答：我也不清楚提问者想要什么样的本质。不过欧几里得可以用5条公理构建一个庞大的数学体系。公理应该算本质了吧。

作者：楼主别编故事装逼了 https://www.zhihu.com/question/37031188/answer/1151909657

本质就是解方程Ax=b，无解的情况。

就是b不在A的列空间中，因此要在A的列空间中找一个b'，让b'和b最接近。

因此，b'就是b在A的列空间中的投影。

最终Ax=b'的解，就是原方程的最小二乘解

作者：明哲
https://www.zhihu.com/question/37031188/answer/997196171

最小二乘法，正如它的名字显示的，它是一个办法，一个方法。

每个方法和办法都有一个目的。那么，最小二乘法的目的是什么呢？

是拟合。

那什么是拟合呢？

就是说，有一堆数据，看着有点杂乱，但却体现出一定的规律，虽然不能构建一个函数，完全匹配数据的每个值，但是能够构建一个函数，大差不差的勾勒出大概的走向，然后预测未来数据的可能。

就像下面这样——

那麻烦就来了，怎么构建呢？

数学家想了一个好办法——

首先，这些数据点，每个点都对应拟合线上的一个点，a对应a1，b对于b2……以此类推。

那么，每a到a1有个距离，b到b1有个距离，每这样两个点都有一个距离。

于是，要让所有这种距离的和的平方最小。

核心思想可以这样概括：每个点和拟合线上它的对应的点的距离的平方和最小，得出的直线就是拟合直线。

这个办法就叫做最小二乘法，这个名字不太直观，如果觉得烦，可以自己换个名字，比如最小平方和法，最小距离平方和法，最小误差平方和法，都行。但记住，官方叫法就是最小二乘法。

函数表达式为——

先选一条线，作为拟合线

构建平方和，让它最小化

这就变成了多元函数最小化问题，求偏导，令偏导等于零，求出来再带入回去……

从而，线性拟合问题通过最小二乘法，转换为了多元函数求极值。

数学再一次解决了实际问题！

作者：SleepyBag
https://www.zhihu.com/question/37031188/answer/534504958

先举一个最简单的例子。我们现在面临一个现实中的任务，要通过测量一组{x,y}的数值，然后根据这些测量出来的{x,y}来求解一个线性模型y=wx+b中的参数w和b。

看上去这是个相当简单的任务，因为我们只要有两对精确的{x, y}的取值就可以通过求解线性方程组来得到w和b的取值了。

当然，这个思路是不正确的，否则我们也就不需要最小二乘法。那么这个思路错在哪里呢？显然，如果说这个思路是错的，那也就说明我们测量出来的{xi, yi}并不完全符合y=wx+b这个线性关系。产生这个问题的原因是，在现实任务当中，尽管x与y之间确实存在可以用这个线性式表示的相关关系，但我们可能因为测量方式、测量工具、眼斜、手抖或者等等其他因素而产生一定的误差。也就是说我们实际测量出的(xi, yi)所符合的模型其实是这样的：

其中epsilon代表我们测量的误差。

What???这个误差项我们又没法测量出来，那我们还怎么求w和b？没错，在无法彻底消除误差的情况下，我们永远都不能得到完全精确的w和b的取值。但是幸运的是，我们可以根据概率论去推测一个比较有可能的w和b的取值。

接下来就要说最小二乘法了。我们在使用最小二乘法的时候，实际上也就是在观测到一系列{xi, yi}的情况下去推测{w, b}的最靠谱的取值。

那怎么去推出这个最靠谱的取值呢？我们当然得先把其他不确定的量确定下来，这里说的就是这个误差epsilon。我们虽然不能确定epsilon的取值，但是我们可以假设epsilon满足一个分布。因为epsilon受到相当多因素的影响，根据中心极限定理，可以猜测epsilon服从高斯分布。也就是

在这个前提下，我们再去推测w和b。这里我们使用最大似然估计。

最大似然估计是什么意思呢？简单来说，就是w和b的哪个取值能让我们现在观测到的{x, y}显得最可能出现，那我们就认为w和b是多少。举个简单的情况，假如我们观测到了x=0,y=0，这时候我们回头看w和b。在w=0与b=0的情况下观测到x=0,y=0的概率是不低的，而在w=1000,b=10000的情况下，我们就不太可能观测到x=0,y=0了。所以我们在观测到x=0,y=0的情况下，我们认为w=0,b=0的可能性比w=1000,b=10000的可能性要大。

好了，我们回到刚才的问题。我们记我们对w和b的估计值为。那在参数符合推测的情况下，我们观测到一对值(xi,yi)的概率为

而我们知道

可知在w,x,b确定的情况下

，即

也就是

然后综合考虑所有的观测值{x,y}，可得

我们的目标也就要使得这个概率最大，即

可以看到，我们最终得到的最小化目标就是最小二乘法的最小化目标。也就是说在测量误差epsilon服从正态分布的前提下，我们只要求出一对

使得预测值与实际值的平方差之和最小，我们就可以保证这些观测值{x, y}的出现概率是最高的。

总结一下：从概率的角度理解，最小二乘法的本质其实就是在观测到一组实验值{x,y}的，并猜测测量误差服从正态分布的前提下，利用极大似然估计，去推测出w和b这两个参数的最靠谱的取值的过程。

作者：fain
https://www.zhihu.com/question/37031188/answer/546633726

最小二乘法常应用在回归方程，那先说回归的一个知识，做回归前提假定 E(Y) = f(X)，即给定X，可得出E(Y)，E(Y)是Y的期望。此处X Y可以是多维的。最常见的线性回归，就是假定f是线性函数。

知道E(Y)是不够的，还需要求出具体的条件概率P(Y|X)。最小二乘法实质上假定P(Y|X)服从均值为E(Y)，方差为1的正态分布，作为先验前提。然后根据经验集合的分布(即能拿来拟合回归的数据的分布)，认为其是数据真实分布的抽样，找出最可能的正态分布形式来，这里只要估计均值E(Y)就行了，因为方差已经假定是1。最后这个过程有点像装修的时候往水管里塞电线，先验是水管的形状，要用电线塞进去，和水管的大致形状（因为水管内部还有一部分空间，电线还有一点点自由度）最像。

不过我这样讲，估计懂的人早懂了，不懂的也很难，具体思想可以参看《DEEP LEARNING》 by GOODFELLOW 第五章。线性回归最小二乘法分别用最大似然相对熵贝叶斯统计的角度实现，都是假定P(Y|X)符合正态分布，根据各家不同思想得到相同结果。

作者：匿名用户
https://www.zhihu.com/question/37031188/answer/1255906481

用线性代数的视角解读一下，几何上的本质是做投影，以下是推导过程。

1. Estimation的基本原则就是误差向量e最小

例子：出于某种需要必须要将（2，1）降维到x轴上

故用估计向量（2，0）而不是其他任意（c，0）代替原向量（2，1），是因为他们之间的误差向量（0，1）在某种程度上是最小了。

2. Least Square Estimation的本质是让误差向量e的L2范数最小，等价于几何上的欧式距离最小（也就是做投影）

例子：出于某种需要必须要将（2，1）降维到x轴上

故用估计向量（2，0）而不是其他任意（c，0）代替原向量（2，1），是因为他们之间的误差向量（0，1）在的欧式距离/L2范数达到了最小值1。

3. 为什么最小的是误差向量e的“二乘”而不是绝对值等等，就是因为向量的欧式距离（L2范数）的计算方式就是“二乘”的和再开根号

例子：出于某种需要必须要将（2，1）降维到x轴上

故用估计向量（2，0）而不是其他任意（c，0）代替原向量（2，1），是因为他们之间的误差向量（0，1）在的欧式距离/L2范数达到了最小值1，欧式距离/L2范数的计算方式为 √(0²＋1²)＝1 。

PS1：距离的度量还可以用L1范数（曼哈顿距离），Lp范数（闵氏距离），L♾️范数（切比雪夫距离）来度量。

PS2: 如果你问我为什么用L2范数来度量，那么答案只能是一开始就假设了误差向量在L2空间内，自然就要用L2范数来度量。另外一种解释就是概统视角出发的，L2空间的误差e是正态分布，而基于误差e正态分布的极大似然估计就是LSE。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~