Spark机器学习.pdf
向AI转型的程序员都关注了这个号👇👇👇
人工智能大数据与深度学习 公众号:datayx
PDF 获取方式
关注微信公众号 datayx 然后回复 spark 即可获取。
AI项目体验地址 https://loveai.tech
《Spark机器学习》
内容提要
彭特里思著的《Spark机器学习》每章都设计了 案例研究,以机器学习算法为主线,结合实例探讨了 spark的实际应用。书中没有让人抓狂的数据公式, 而是从准备和正确认识数据开始讲起,全面涵盖了推 荐系统、回归、聚类、降维等经典的机器学习算法及 其实际应用。
本书适合互联网公司从事数据分析的人员,以及 高校数据挖掘相关专业的师生阅读参考。
目录
**章 Spark 的环境搭建与运行
1.1 Spark 的本地安装与配置
1.2 Spark 集群
1.3 Spark 编程模型
1.3.1 SparkContext类与SparkConf类
1.3.2 Spar
1.3.3 弹性分布式数据集
1.3.4 广播变量和累加器
1.4 Spark Scala 编程入门
1.5 Spark Java 编程入门
1.6 Spark Python 编程入门
1.7 在*** EC2 上运?
1.8 小结
第2章 设计机器学习系统
2.1 MovieStream 介绍
2.2 机器学习系统商业用例
2.2.1 个性化
2.2.2 目标营销和客户细分
2.2.3 预测建模与分析
2.3 机器学习模型的种类
2.4 数据驱动的机器学习系统的组成
2.4.1 数据获取与存储
2.4.2 数据清理与转换
2.4.3 模型训练与测试回路
2.4.4 模型部署与整合
2.4.5 模型监控与反馈
2.4.6 批处理或实时方案的选择
2.5 机器学习系统架构
2.6 小结
第3章 Spark 上数据的获取、处理与准备
3.1 获取公开数据集
3.2 探索与可视化数据
3.2.1 探索用户数据
3.2.2 探索电影数据
3.2.3 探索评级数据
3.3 处理与转换数据
3.4 从数据中提取有用特征
3.4.1 数值特征
3.4.2 类别特征
3.4.3 派生特征
3.4.4 文本特征
3.4.5 正则化特征
3.4.6 用软件包提取特征
3.5 小结
第4章 构建基于Spark的推荐引擎
4.1 推荐模型的分类
4.1.1 基于内容的过滤
4.1.2 协同过滤
4.1.3 矩阵分解
4.2 提取有效特征
4.3 训练推荐模型
4.3.1 使用MovieLens 100k数据集训练模型
4.3.2 使用隐式反馈数据训练模型
4.4 使用推荐模型
4.4.1 用户推荐
4.4.2 物品推荐
4.5 推荐模型效果的评估
4.5.1 均方差
4.5.2 K 值平均准确率
4.5.3 使用MLlib内置的评估函数
4.6 小结
第5章 Spark构建分类模型
5.1 分类模型的种类
5.1.1 线性模型
5.1.2 朴素贝叶斯模型
5.1.3 决策树
5.2 从数据中抽取合适的特征
5.3 训练分类模型
5.4 使用分类模型
5.5 评估分类模型的性能
5.5.1 预测的正确率和错误率
5.5.2 准确率和召回率
5.5.3 ROC曲线和
5.6 改进模型性能以及参数调优
5.6.1 特征标准化
5.6.2 其他特征
5.6.3 使用正确的数据格式
5.6.4 模型参数调优
5.7 小结
第6章 Spark构建回归模型
6.1 回归模型的种类
6.1.1 *小二乘回归
6.1.2 决策树回归
6.2 从数据中抽取合适的特征
6.3 回归模型的训练和应用
6.4 评估回归模型的性能
6.4.1 均方误差和均方根误差
6.4.2 平均**误差
6.4.3 均方根对数误差
6.4.4 R-平方系数
6.4.5 计算不同度量下的性能
6.5 改进模型性能和参数调优
6.5.1 变换目标变量
6.5.2 模型参数调优
6.6 小结
第7章 Spark构建聚类模型
7.1 聚类模型的类型
7.1.1 K-均值聚类
7.1.2 混合模型
7.1.3 层次聚类
7.2 从数据中提取正确的特征
7.3 训练聚类模型
7.4 使用聚类模型进行预测
7.5 评估聚类模型的性能
7.5.1 内部评价指标
7.5.2 外部评价指标
7.5.3 在MovieLens数据集计算性能
7.6 聚类模型参数调优
7.7 小结
第8章 Spark应用于数据降维
8.1 降维方法的种类
8.1.1 主成分分析
8.1.2 奇异值分解
8.1.3 和矩阵分解的关系
8.1.4 聚类作为降维的方法
8.2 从数据中抽取合适的特征
8.3 训练降维模型
8.4 使用降维模型
8.4.1 在LFW数据集上使用PCA投影数据
8.4.2 PCA和SVD模型的关系
8.5 评价降维模型
8.6 小结
第9章 Spark **文本处理技术
9.1 处理文本数据有什么特别之处
9.2 从数据中抽取合适的特征
9.2.1 短语加权表示
9.2.2 特征哈希
9.2.3 从20 新闻组数据集中提取TF-IDF 特征
9.3 使用TF-IDF模型
9.3.1 20 Newsgroups数据集的文本相似度和TF-IDF特征
9.3.2 基于20 Newsgroups 数据集使用TF-IDF训练文本分类器
9.4 评估文本处理技术的作用
9.5 Word2Vec 模型
9.6 小结
**0章 Spark Streaming在实时机器学习上的应用
10.1 在线学习
10.2 流处理
10.2.1 Spark Streaming介绍
10.2.2 使用Spark Streaming缓存和容错
10.3 创建Spark Streaming应用
10.3.1 消息生成端
10.3.2 创建简单的流处理程序
10.3.3 流式分析
10.3.4 有状态的流计算
10.4 使用Spark Streaming进行在线学习
10.4.1 流回归
10.4.2 一个简单的流回归程序
10.4.3 流K-均值
10.5 在线模型评估
10.6 小结
阅读过本文的人还看了以下文章:
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
机大数据技术与机器学习工程
搜索公众号添加: datanlp
长按图片,识别二维码