来!一起捋一捋机器学习分类算法
共 6500字,需浏览 13分钟
·
2021-05-10 08:28
KNN算法的优缺点是什么?
Naive Bayes算法的基本假设是什么?
entropy loss是如何定义的?
最后,分类算法调参常用的图像又有哪些?
机器学习是使计算机无需显式编程就能学习的研究领域。 ——阿瑟·塞缪尔,1959年
“如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特性。” ——Tom Mitchell, 1997
https://builtin.com/data-science/introduction-to-machine-learning
监督学习
https://builtin.com/data-science/tour-top-10-algorithms-machine-learning-newbies
分类问题
逻辑回归
K-近邻算法(K-NN)
支持向量机(SVM)
前文讨论的就是线性SVM。
多项式核中需要指定多项式的次数。它允许在输入空间中使用曲线进行分割。
径向基核(radial basis function, RBF)可用于非线性可分变量。使用平方欧几里德距离,参数的典型值会导致过度拟合。sklearn中默认使用RBF。
类似于与逻辑回归类似,sigmoid核用于二分类问题。
朴素贝叶斯
决策树分类
分类的集成算法
梯度提升分类器
使用浅层决策树初始化预测结果。
计算残差值(实际预测值)。
构建另一棵浅层决策树,将上一棵树的残差作为输入进行预测。
用新预测值和学习率的乘积作为最新预测结果,更新原有预测结果。
重复步骤2-4,进行一定次数的迭代(迭代的次数即为构建的决策树的个数)。
https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d%20/t%20_blank
分类器的性能
混淆矩阵
假正例&假负例
接受者操作曲线(ROC)和曲线下的面积(AUC)
累积精度曲线
http://www.semspirit.com/artificial-intelligence/machine-learning/classification/classifier-evaluation/classifier-evaluation-with-cap-curve-in-python/" "_blank"
https://github.com/BadreeshShetty/Supervised-ML-Classification" "_blank"Github Repo
https://builtin.com/data-science/supervised-machine-learning-classification
End
声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。