Spark大数据处理与分析（双色、微课）

首页 > 图书分类 > 计算机系列 >

Spark大数据处理与分析（双色、微课）

ISBN：978-7-5124-4781-3

主编：李芬芬谭玉玲刘君

出版社：北京航空航天大学出版社

出版/修订日期：2025.7

￥59.80元

图书简介
目录
资源下载

本书介绍了Spark 3. 4. 0 生态核心组件，并涵盖了Hadoop3、HBase、Zookeeper、MySQL 等关联技术，构建了完整的大数据技术知识体系。全书共9 章，内容从大数据技术概述切入，逐步深入到Spark 大数据处理框架搭建、PySpark RDD 操作、PySpark DataFrame 应用、Spark SQL 与MySQL 的读写交互、Pandas API on Spark 的实践方法，以及基于DataFrame 的Spark MLlib 机器学习库使用；同时，详解了Structured Streaming 的工作原理、编程模型、状态管理与容错机制，并介绍了基于PySpark 操作HBase 数据库的实现方式，形成了由浅入深的知识脉络。

为强化实践应用，书中设计了8 个综合实例，包括英文词频统计、Spark SQL 与MySQL 的交互实践、基于pyspark. pandas 的数据处理分析、利用BisectingKMeans 算法进行文档聚类、基于用户协同过滤的电影推荐系统、Structured Streaming 流式数据处理、HBase 数据库读写操作及PySpark 地理空间数据处理，全面覆盖核心技术的实战场景。

本书兼具理论系统性与实践指导性，既可作为计算机科学与技术、数据科学与大数据技术、数据计算及应用、统计学、软件工程、人工智能、金融数学等专业的大数据课程教材，也能为大数据开发工程师、科研工作者等提供实用的技术参考，助力快速掌握Spark 生态及相关技术的应用要点。

第1 章　大数据技术概述 1

　　 1. 1　大数据的基本概念 1

　　 1. 2　大数据技术概述 6

　　 1. 3　大数据编程语言 16

　　 1. 4　数据规模与处理工具 21

　　 1. 5　思政拓展 22

　　 1. 6　思考讨论 24

第2 章　 Spark 大数据处理框架 25

　　 2. 1　 Spark 简介 25

2. 2　虚拟机和 Linux 的安装 32

　　 2. 3　 Spark 的安装与配置 73

　　 2. 4　 Anaconda 的安装和基本使用 82

　　 2. 5　 Python 和 PyCharm 的安装 88

　　 2. 6　思政拓展 88

　　 2. 7　思考讨论 90

第3 章　 Spark Core 和 PySpark RDD 92

　　 3. 1　 Spark Core 和 PySpark RDD 简介 92

　　 3. 2　 PySpark RDD 的创建方式 95

　　 3. 3　 PySpark RDD 转换操作 101

　　 3. 4　 PySpark RDD 行动操作 118

　　 3. 5　 PySpark RDD 之间的依赖关系 123

　　 3. 6　 PySpark RDD 的持久化 124

　　 3. 7　思政拓展 126

　　 3. 8　思考讨论 127

第4 章　 Spark SQL 和 PySpark DataFrame 129

　　 4. 1　 Spark SQL 和 PySpark DataFrame 简介 129

　　 4. 2　 Spark Session 核心概念 132

　　 4. 3　 DataFrame 常用属性、数据结构和操作 133

　　 4. 4　实例2　使用 Spark SQL 读写 MySQL 数据库 149

　　 4. 5　思政拓展 154

　　 4. 6　思考讨论 155

第5 章　 Pandas API on Spark 157

　　 5. 1　 Pandas API on Spark 概述 157

　　 5. 2　 pyspark. pandas. Series 158

　　 5. 3　 pyspark. pandas. DataFrame 162

　　 5. 4　实例3　使用 pyspark. pandas 进行数据处理和分析 166

　　 5. 5　思政拓展 168

　　 5. 6　思考讨论 169

第6 章　基于 DataFrame 的 Spark MLlib 171

　　 6. 1　 MLlib 简介 171

　　 6. 2　 Spark MLlib 基本数据类型 172

　　 6. 3　基本统计分析方法 177

　　 6. 4　机器学习流水线 Pipeline APIs 182

　　 6. 5　特征处理 185

　　 6. 6　聚类算法 200

　　 6. 7　分类算法 206

　　 6. 8　回归分析算法 211

　　 6. 9　交叉验证与网格搜索 217

　　 6. 10　实例5　基于用户协同过滤的电影推荐 219

　　 6. 11　模型持久化 224

　　 6. 12　思政拓展 226

　　 6. 13　思考讨论 227

第7 章　 Structured Streaming 流计算 229

　　 7. 1　流计算概述 229

　　 7. 2　 Structured Streaming 程序的步骤、输入与输出 233

　　 7. 3　状态管理与容错 238

　　 7. 4　实例6　 Structured Streaming 流数据的读取与基本处理 239

　　 7. 5　思政拓展 241

　　 7. 6　思考讨论 242

第8 章　基于 PySpark 操作 HBase 数据库 244

　　 8. 1　 HBase 概述 244

　　 8. 2　 HBase 的安装与配置 246

　　 8. 3　 Zookeeper 的下载、安装与配置 249

　　 8. 4　 HBase 的启动与停止 251

　　 8. 5　 HBase 的 Shell 操作 252

　　 8. 6　 HBase 的系统架构和数据表 258

　　 8. 7　实例7　基于 PySpark 操作 HBase 数据库 263

　　 8. 8　思政拓展 267

　　 8. 9　思考讨论 267

第9 章　 PySpark 实战 269

　　 9. 1　实例8　使用 PySpark 处理地理空间数据 269

　　 9. 2　思政拓展 272

　　 9. 3　思考讨论 273

附录　常用参考资源链接 275

参考文献 276

Spark大数据处理与分析（双色、微课）

热门文章

常见问题解答