【统计学习方法】 第3章 k近邻法(一)

共 973字,需浏览 2分钟

 ·

2021-02-11 02:51



点击上方“公众号”可订阅哦!


  近邻法是一种基本分类与回归分析方法。


  近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。

  近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。

  值的选择、距离度量及分类决策规则是  近邻法的三个基本要素。

本章先叙述  近邻算法,然后讨论  近邻法的模型及三个基本要素,最后讲述  近邻算法的一个实现。

先讲述  近邻算法和三个基本要素。


1

  近邻算法


给定一个训练数据集,对新输入实例,在训练数据集中找到与该实例最邻近的  个实例,这  个实例的多数属于某个类,就把该输入实例分为这个类。


输入:

  

其中,

  为实例的特征向量,  为实例的类别。


输出:

实例  所属的类  


1)根据给定的距离向量,在训练数据集中找出与  最邻近的  个点。

2)在这  个点中根据分类规则决定  的类别  




2

  近邻模型


k近邻法使用的模型实际上对应于对特征空间的划分。由模型的三个基本要素——距离度量、k值的选择和分类决策规则决定。


  • 距离度量


特征空间中两个实例点的距离是两个实例点相似程度的反映。

设特征向量x是n维实数向量空间,  ,  ,  ,

则:  的距离定义为,

  

 

  ,曼哈顿距离

  ,欧式距离

  ,切比雪夫距离

 


  •   值的选择


  值的选择会对近邻法的结果产生重大影响。

如果选择较小的  值,就相当于用较小的领域中的训练实例进行预测,“学习”的近似误差会减小,只有与输入实例较近的训练实例才会对预测结果起作用。或者说,  值的减小就意味着整体模型变得复杂,容易发生过拟合。


如果选择较大的  值,就相当于用较大领域中的训练实例进行预测。其优点是可以减少学习的估计误差。  值的增大就意味着模型变得简单。



  • 分类决策规则

  近邻法中的分类决策规则往往是多数表决,即由输入实例的  个近邻的训练实例中的多数类决定输入实例的类。多数表决规则等价于经验风险最小化。







 END

深度学习入门笔记

微信号:sdxx_rmbj

日常更新学习笔记、论文简述

浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报