精通特征工程

联合创作 · 2023-10-06 07:31

特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却寥寥无几。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。

然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用 Python 编写的,涉及 NumPy、Pandas、scikit-learn 和 Matplotlib 等程序包。

• 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换

• 自然文本技...

特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却寥寥无几。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。

然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用 Python 编写的,涉及 NumPy、Pandas、scikit-learn 和 Matplotlib 等程序包。

• 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换

• 自然文本技术:词袋、n元词与短语检测

• 基于频率的过滤和特征缩放

• 分类变量编码技术:特征散列化与分箱计数

• 使用主成分分析的基于模型的特征工程

• 模型堆叠与k-均值特征化

• 图像特征提取:人工提取与深度学习

爱丽丝 ·郑(Alice Zheng)是应用机器学习、生成算法和平台开发领域的一位技术领导者。她现在担任 Amazon Advertising 的研究经理,此前曾在 GraphLab/Data/Turi 从事工具开发和用户培训,并在微软研究院担任过机器学习研究员。她在加州大学伯克利分校获得了计算机科学学士学位和数学学士学位以及电子工程和计算机科学博士学位。

阿曼达 ·卡萨丽(Amanda Casari)是一位领导者和工程师,研究兴趣是下一代技术以及如何充分展示出它们的影响。她现在是 Concur Labs 的高级产品经理和数据科学家,也是 SAP Concur 的 Concur Labs AI Research 团队的联合创始人。在过去的16年中,她担任过多种跨职能职务,涉足过多种工程领域,包括数据科学、机器学习、复杂系统和机器人。她在美国海军学院获...

爱丽丝 ·郑(Alice Zheng)是应用机器学习、生成算法和平台开发领域的一位技术领导者。她现在担任 Amazon Advertising 的研究经理,此前曾在 GraphLab/Data/Turi 从事工具开发和用户培训,并在微软研究院担任过机器学习研究员。她在加州大学伯克利分校获得了计算机科学学士学位和数学学士学位以及电子工程和计算机科学博士学位。

阿曼达 ·卡萨丽(Amanda Casari)是一位领导者和工程师,研究兴趣是下一代技术以及如何充分展示出它们的影响。她现在是 Concur Labs 的高级产品经理和数据科学家,也是 SAP Concur 的 Concur Labs AI Research 团队的联合创始人。在过去的16年中,她担任过多种跨职能职务,涉足过多种工程领域,包括数据科学、机器学习、复杂系统和机器人。她在美国海军学院获得了控制系统工程学士学位,在佛蒙特大学获得了电子工程硕士学位。

浏览 18
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报