留言咨询
首页 > 图书分类 > 计算机系列 >
Spark大数据处理与分析(双色、微课)

Spark大数据处理与分析(双色、微课)

ISBN:978-7-5124-4781-3

主编:李芬芬 谭玉玲 刘君

出版社:北京航空航天大学出版社

出版/修订日期:2025.7

¥59.80元

本书介绍了Spark 3. 4. 0 生态核心组件并涵盖了Hadoop3、HBase、Zookeeper、MySQL 等关联技术构建了完整的大数据技术知识体系。全书共9 章内容从大数据技术概述切入逐步深入到Spark 大数据处理框架搭建、PySpark RDD 操作、PySpark DataFrame 应用、Spark SQL 与MySQL 的读写交互、Pandas API on Spark 的实践方法以及基于DataFrame 的Spark MLlib 机器学习库使用同时详解了Structured Streaming 的工作原理、编程模型、状态管理与容错机制并介绍了基于PySpark 操作HBase 数据库的实现方式形成了由浅入深的知识脉络。

为强化实践应用书中设计了8 个综合实例包括英文词频统计、Spark SQL 与MySQL 的交互实践、基于pyspark. pandas 的数据处理分析、利用BisectingKMeans 算法进行文档聚类、基于用户协同过滤的电影推荐系统、Structured Streaming 流式数据处理、HBase 数据库读写操作及PySpark 地理空间数据处理全面覆盖核心技术的实战场景。

本书兼具理论系统性与实践指导性既可作为计算机科学与技术、数据科学与大数据技术、数据计算及应用、统计学、软件工程、人工智能、金融数学等专业的大数据课程教材也能为大数据开发工程师、科研工作者等提供实用的技术参考助力快速掌握Spark 生态及相关技术的应用要点。

1 章  大数据技术概述 1

    1. 1  大数据的基本概念  1

    1. 2  大数据技术概述  6

    1. 3  大数据编程语言  16

    1. 4  数据规模与处理工具  21

    1. 5  思政拓展  22

    1. 6  思考讨论  24

2 章  Spark 大数据处理框架  25

    2. 1  Spark 简介  25

2. 2  虚拟机和 Linux 的安装 32

    2. 3  Spark 的安装与配置  73

    2. 4  Anaconda 的安装和基本使用  82

    2. 5  Python 和 PyCharm 的安装  88

    2. 6  思政拓展  88

    2. 7  思考讨论  90

3 章  Spark Core 和 PySpark RDD  92

    3. 1  Spark Core 和 PySpark RDD 简介 92

    3. 2  PySpark RDD 的创建方式 95

    3. 3  PySpark RDD 转换操作  101

    3. 4  PySpark RDD 行动操作  118

    3. 5  PySpark RDD 之间的依赖关系  123

    3. 6  PySpark RDD 的持久化  124

    3. 7  思政拓展  126

    3. 8  思考讨论  127

4 章  Spark SQL 和 PySpark DataFrame  129

    4. 1  Spark SQL 和 PySpark DataFrame 简介  129

    4. 2  Spark Session 核心概念  132

    4. 3  DataFrame 常用属性、 数据结构和操作  133

    4. 4  实例2  使用 Spark SQL 读写 MySQL 数据库  149

    4. 5  思政拓展  154

    4. 6  思考讨论  155

5 章  Pandas API on Spark  157

    5. 1  Pandas API on Spark 概述  157

    5. 2  pyspark. pandas. Series  158

    5. 3  pyspark. pandas. DataFrame  162

    5. 4  实例3  使用 pyspark. pandas 进行数据处理和分析  166

    5. 5  思政拓展  168

    5. 6  思考讨论  169

6 章  基于 DataFrame 的 Spark MLlib  171

    6. 1  MLlib 简介  171

    6. 2  Spark MLlib 基本数据类型 172

    6. 3  基本统计分析方法  177

    6. 4  机器学习流水线 Pipeline APIs  182

    6. 5  特征处理  185

    6. 6  聚类算法  200

    6. 7  分类算法  206

    6. 8  回归分析算法  211

    6. 9  交叉验证与网格搜索  217

    6. 10  实例5  基于用户协同过滤的电影推荐 219

    6. 11  模型持久化  224

    6. 12  思政拓展  226

    6. 13  思考讨论  227

7 章  Structured Streaming 流计算  229

    7. 1  流计算概述  229

    7. 2  Structured Streaming 程序的步骤、 输入与输出  233

    7. 3  状态管理与容错  238

    7. 4  实例6  Structured Streaming 流数据的读取与基本处理 239

    7. 5  思政拓展  241

    7. 6  思考讨论  242

8 章  基于 PySpark 操作 HBase 数据库  244

    8. 1  HBase 概述  244

    8. 2  HBase 的安装与配置  246

    8. 3  Zookeeper 的下载、 安装与配置 249

    8. 4  HBase 的启动与停止  251

    8. 5  HBase 的 Shell 操作 252

    8. 6  HBase 的系统架构和数据表  258

    8. 7  实例7  基于 PySpark 操作 HBase 数据库  263

    8. 8  思政拓展  267

    8. 9  思考讨论  267

9 章  PySpark 实战  269

    9. 1  实例8  使用 PySpark 处理地理空间数据  269

    9. 2  思政拓展  272

    9. 3  思考讨论  273

附录  常用参考资源链接 275

参考文献 276

配套资源下载

登录下载

目录下载

登录下载

样章下载

下载
还有疑问? 马上咨询在线专业老师, 快速回复 解答您的教材问题! 邮件咨询