Spark快速大数据分析(第2版)
毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。
◎ 编辑推荐
☆ Databricks工程师诚意之作,比官方文档更实用的Spark入门教程
☆ 前一版印刷32次,销量超6万册
☆ 新版全面更新,覆盖Spark 3.0新特性
本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。
○ 学习使用Python、Java、Scala的结构化数据API
○ 理解Spark SQL引擎的原理
○ 掌握Spark应用的优化技巧
○ 了解如...
毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。
◎ 编辑推荐
☆ Databricks工程师诚意之作,比官方文档更实用的Spark入门教程
☆ 前一版印刷32次,销量超6万册
☆ 新版全面更新,覆盖Spark 3.0新特性
本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。
○ 学习使用Python、Java、Scala的结构化数据API
○ 理解Spark SQL引擎的原理
○ 掌握Spark应用的优化技巧
○ 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC等
○ 使用Structured Streaming分析批式数据和流式数据
○ 使用Spark和Delta Lake构建湖仓一体的系统
○ 使用MLlib开发机器学习流水线
◎ 内容简介
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。
随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。
◎ 业内佳评
“这本书提供了一种系统学习Spark的方法,并介绍了该项目的发展近况,是Spark开发人员上手大数据的好途径。”
——Reynold Xin,Databricks联合创始人、Apache Spark PMC成员
“对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说,这本书应成为常备指南。”
——Ben Lorica,Databricks数据科学家、Spark + AI峰会项目主席
“在信息化时代,数据已经成为现代化企业的重要资产,大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来,随着开源技术理念的蓬勃发展,开源大数据技术体系已经成为行业的主流选择,Apache Spark就是其中的优秀代表。凭借优秀的架构设计,Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据,加速各行各业实现数字化转型。”
——王峰,花名“莫问”,阿里云开源大数据平台负责人
“转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目,Spark并未逐渐凋零,而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时,也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解,也希望Spark在未来的10年能持续进化,在大数据领域擦出更多的‘火花’。”
——邵赛赛,腾讯专家工程师,数据湖团队负责人
“这是一个数据驱动创新的时代,一个数据改变世界的时代,一个数据成为生产资源和执政资源的时代。Apache Spark是数据分析的事实标准。这本书既是学习Spark的入门指南,也是大数据行业的敲门砖。”
——李潇,Databricks Spark研发部主管,Apache Spark PMC成员
◎ 著者简介
☆ 朱尔斯·S. 达米吉(Jules S. Damji),Databricks的高级开发人员,也是MLflow的贡献者。
☆ 布鲁克·韦尼希(Brooke Wenig),Databricks的机器学习专家。
☆ 泰瑟加塔·达斯(Tathagata Das),Databricks的软件工程师,也是Apache Spark PMC成员。
☆ 丹尼·李(Denny Lee)是Databricks的软件工程师。
◎ 译者简介
王道远,目前就职于阿里云开源大数据平台数据湖存储团队,花名“健身”,主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验,熟悉Spark源码,从2014年开始参与Spark项目,曾为Spark贡献大量修复和新特性,也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。