开源下载 | 机器学习特征工程方法总结.pdf

机器学习实验室

共 879字,需浏览 2分钟

 ·

2021-06-03 09:35

机器学习领域有一句至理名言,那就是数据和特征决定了机器学习模型的上限,而模型和算法只是不断的逼近这个上限而已。


纵然算法再厉害,也敌不过大量数据训练和精细化特征工程所带来的效果。有参加过kaggle或者天池等数据算法竞赛的朋友都知道,top解决方案在最后的算法设计上其实并没有本质上的差异,大家大量的工作都用在做特征上。所以,特征工程才是机器学习的关键所在。


今天要给大家分享的是《Feature Engineering for Machine Learning》一书,中文翻译名为《精通特征工程》。早年笔者学习机器学习时,也认真读完了这本书。

特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却寥寥无几。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。


然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。


  • 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换

  • 自然文本技术:词袋、n元词与短语检测

  • 基于频率的过滤和特征缩放

  • 分类变量编码技术:特征散列化与分箱计数

  • 使用主成分分析的基于模型的特征工程

  • 模型堆叠与k-均值特征化

  • 图像特征提取:人工提取与深度学习




对本书感兴趣的读者可以扫描下方二维码加笔者微信获取全部讲义。

浏览 32
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报