【统计学习方法】第1章统计学习方法概论（二）-轻识

点击上方“公众号”可订阅哦！

“如果我较早地了解这个公众号，也许我将有足够的时间来制定大统一理论。”

Albert Einstein

本篇继续介绍统计学习相关的概念。

●

正则化与交叉验证

正则化

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，是在经验风险上添加一个正则化项或惩罚。

正则化一般具有如下形式：

其中第1项是经验风险，第2项是正则化项。

正则化项可以取不同的形式，

正则化项符合奥卡姆剃刀原理。奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好解释已知数据并且十分简单才是最好的模型。

交叉验证

另一种常用的模型选择方法是交叉验证。

如果给定的样本数据充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集、验证集和测试集。

但是在许多应用中的数据书不充足的，为了选择好的模型，可以采用交叉验证方法。交叉验证的基本想法是重复的使用数据，把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复进行训练、测试以及模型选择。

简单交叉验证：首先随机将已给的数据划分为两部分，一部分作为训练集，另一部分作为测试集；然后用训练集在各种条件下训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型。

S折交叉验证：首先随机地将已给数据切分为S个互不相交的大小相同的子集；然后利用S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S种选择重复进行；最后选择出S次测评中平均测试误差最小的模型。

留一交叉验证：S折交验证的特殊情形是S=N，称为留一交叉验证。

使用正则项，拟合曲线，

代码演示：

import numpy as npimport scipy as spfrom scipy.optimize import leastsqimport matplotlib.pyplot as plt%matplotlib inline
# 目标函数def real_func(x):    return np.sin(2*np.pi*x)
# 多项式def fit_func(p, x):    f = np.poly1d(p)    return f(x)
# 残差def residuals_func(p, x, y):    ret = fit_func(p, x) - y    return ret        # 十个点x = np.linspace(0, 1, 10)x_points = np.linspace(0, 1, 1000)# 加上正态分布噪音的目标函数的值y_ = real_func(x)y = [np.random.normal(0, 0.1) + y1 for y1 in y_]

regularization = 0.0001

def residuals_func_regularization(p, x, y):    ret = fit_func(p, x) - y    ret = np.append(ret,np.sqrt(0.5 * regularization * np.square(p)))  # L2范数作为正则化项    return ret

def fitting(M=0):    """    M    为 多项式的次数    """    # 随机初始化多项式参数    p_init = np.random.rand(M + 1)    # 最小二乘法    p_lsq = leastsq(residuals_func, p_init, args=(x, y))    print('Fitting Parameters:', p_lsq[0])
    # 可视化    plt.plot(x_points, real_func(x_points), label='real')    plt.plot(x_points, fit_func(p_lsq[0], x_points), label='fitted curve')    plt.plot(x, y, 'bo', label='noise')    plt.legend()    return p_lsq  # 最小二乘法,加正则化项p_init = np.random.rand(9 + 1)p_lsq_regularization = leastsq(residuals_func_regularization, p_init, args=(x, y)) p_lsq_9 = fitting(M=9) 
plt.plot(x_points, real_func(x_points), label='real')plt.plot(x_points, fit_func(p_lsq_9[0], x_points), label='fitted curve')plt.plot(x_points,fit_func(p_lsq_regularization[0], x_points),label='regularization')plt.plot(x, y, 'bo', label='noise')plt.legend()