【机器学习理论基础】理解偏差、方差和泛化误差的关系-轻识

一偏置-方差分解(Bias-Variance Decomposition)

偏置-方差分解(Bias-Variance Decomposition)是统计学派看待模型复杂度的观点。Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模，它可以把一种学习算法的期望误差分解为三个非负项的和，即噪音noise、bias和 variance。

噪声是一种不可控的错误，很难避免，被称为不可约偏差(irreducible error) ，即噪声无法通过模型来消除。噪声通常是出现在“数据采集”的过程中的，且具有随机性和不可控性，比如采集用户数据的时候仪器产生的随机性偏差、人工标注时的错误或者在实验中受到其他不可控因素的干扰等。表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。

符号	涵义
	测试样本
	数据集
	在数据集中的标记
	的真实标记
	训练集学得的模型
	由训练集学得的模型对的预测输出
	模型对的期望预测输出

真实标记（）就是说一组数据的真实值，而数据集的实际标记（）一般是说记录或者测量得到的实际结果，而这个过程就会产生误差，比如说我们测量体重，然后记录结果，那么可能会由于这个体重秤本身不太精确，或者你的粗心大意等其他原因都会导致你的记录结果和真实结果不同，即数据集的实际标记和真实标记存在误差。

1.1 期望预测

在一个训练集上模型 f对测试样本的预测输出为 , 那么学习算法对测试样本的期望预测为:

当我们使用相同的算法，但使用不同的训练数据D时就会得到多个。上面的期望预测也就是针对不同数据集 , 对的预测值取其期望（平均预测）。

1.2 方差

方差是指机器学习模型预测的期望值与预测值之间的差平方和；度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

使用样本数相同的不同训练集产生的方差为:

1.3 偏差

期望预测与真实标记的误差称为偏差(bias), 度量了模型的期望预测和真实结果的偏离程度，刻画了模型本身的拟合能力。为了方便起见, 我们直接取偏差的平方:

1.4 泛化误差

以回归任务为例, 学习算法的平方预测误差期望（MSE）为:

对算法的期望泛化误差进行分解:

令噪声为零，，所以红色区域的等于零。

所有存在模型的泛化能力(泛化误差)是由偏差、方差与数据噪声之和：

因此，在机器学习中，我们通常使用均方误差（Mean Squared Error, MSE）来评估模型的性能。MSE是一个综合了偏差和方差的度量，它能够很好地反映出模型预测值与真实值之间的差异。

二图解偏差与方差

模型的复杂度与方差偏差的变动情况如下图所示，当算法复杂度不够或者是训练程度不足时，学习器的拟合能力不足，偏差主导泛化错误率．随着算法复杂度加深或训练程度加强，学习器的拟合能力逐渐增强，训练数据的扰动逐渐被学习器学习到，此时方差逐步主导了泛化错误率．而我们要做的就是在在偏差和方差之间寻找一个平衡点，即泛化误差最小的点, 达到optimal balance.

我们选择的算法以及平衡偏差和方差方式会产生不同的折衷效果．

这是一张常见的靶心图。可以想象红色靶心表示为实际值，蓝色点集为预测值。在模型不断地训练和迭代过程中，模型的偏差和方差通过会出现以下四种情况：

1）低偏差，低方差：这是模型的最好结果，一个好的模型会不断去逼近低偏差和低方差这个结果；

2）低偏差，高方差：这是机器学习模型经常遇到的问题，即过拟合了。模型对训练数据学习的过于好过于细致了，导致其泛化能力差，若遇到测试集，准确度下降的厉害；

3）高偏差，低方差：这往往是机器学习模型训练的初始阶段，欠拟合；

4）高偏差，高方差：这是机器学习训练最糟糕的情况，准确度差，数据的离散程度也差。

实际上我们无法计算真实的偏差和方差值，因为我们不知道真正的的目标函数是什么，但我们可以利用偏差和方差帮助我们更好的理解机器学习算法的性能，在偏差和方差之间寻求平衡可以使我们的模型避免过拟合或者欠拟合．

在实践中，我们通常不会直接计算偏差和方差的具体数值，而是通过观察模型在训练数据和验证数据上的表现来判断模型是否欠拟合或过拟合。例如，如果模型在训练集上表现很好但在验证集上表现很差，那么很可能存在高方差的问题。

三方差和偏差与拟合

拟合程度	方差	偏差	原因	解决办法
欠拟合		过高	训练不足，偏差主导泛化误差	集成学习；加深加迭代；加特征；降低正则化；
过拟合	过高		训练过多，方差主导泛化误差	降低模型复杂度；加正则惩罚项；加训练集；减特征；提高正则化

【机器学习理论基础】理解偏差、方差和泛化误差的关系

一 偏置-方差分解(Bias-Variance Decomposition)