第1 章 大数据技术概述 1
1. 1 大数据的基本概念 1
1. 2 大数据技术概述 6
1. 3 大数据编程语言 16
1. 4 数据规模与处理工具 21
1. 5 思政拓展 22
1. 6 思考讨论 24
第2 章 Spark 大数据处理框架 25
2. 1 Spark 简介 25
2. 2 虚拟机和 Linux 的安装 32
2. 3 Spark 的安装与配置 73
2. 4 Anaconda 的安装和基本使用 82
2. 5 Python 和 PyCharm 的安装 88
2. 6 思政拓展 88
2. 7 思考讨论 90
第3 章 Spark Core 和 PySpark RDD 92
3. 1 Spark Core 和 PySpark RDD 简介 92
3. 2 PySpark RDD 的创建方式 95
3. 3 PySpark RDD 转换操作 101
3. 4 PySpark RDD 行动操作 118
3. 5 PySpark RDD 之间的依赖关系 123
3. 6 PySpark RDD 的持久化 124
3. 7 思政拓展 126
3. 8 思考讨论 127
第4 章 Spark SQL 和 PySpark DataFrame 129
4. 1 Spark SQL 和 PySpark DataFrame 简介 129
4. 2 Spark Session 核心概念 132
4. 3 DataFrame 常用属性、 数据结构和操作 133
4. 4 实例2 使用 Spark SQL 读写 MySQL 数据库 149
4. 5 思政拓展 154
4. 6 思考讨论 155
第5 章 Pandas API on Spark 157
5. 1 Pandas API on Spark 概述 157
5. 2 pyspark. pandas. Series 158
5. 3 pyspark. pandas. DataFrame 162
5. 4 实例3 使用 pyspark. pandas 进行数据处理和分析 166
5. 5 思政拓展 168
5. 6 思考讨论 169
第6 章 基于 DataFrame 的 Spark MLlib 171
6. 1 MLlib 简介 171
6. 2 Spark MLlib 基本数据类型 172
6. 3 基本统计分析方法 177
6. 4 机器学习流水线 Pipeline APIs 182
6. 5 特征处理 185
6. 6 聚类算法 200
6. 7 分类算法 206
6. 8 回归分析算法 211
6. 9 交叉验证与网格搜索 217
6. 10 实例5 基于用户协同过滤的电影推荐 219
6. 11 模型持久化 224
6. 12 思政拓展 226
6. 13 思考讨论 227
第7 章 Structured Streaming 流计算 229
7. 1 流计算概述 229
7. 2 Structured Streaming 程序的步骤、 输入与输出 233
7. 3 状态管理与容错 238
7. 4 实例6 Structured Streaming 流数据的读取与基本处理 239
7. 5 思政拓展 241
7. 6 思考讨论 242
第8 章 基于 PySpark 操作 HBase 数据库 244
8. 1 HBase 概述 244
8. 2 HBase 的安装与配置 246
8. 3 Zookeeper 的下载、 安装与配置 249
8. 4 HBase 的启动与停止 251
8. 5 HBase 的 Shell 操作 252
8. 6 HBase 的系统架构和数据表 258
8. 7 实例7 基于 PySpark 操作 HBase 数据库 263
8. 8 思政拓展 267
8. 9 思考讨论 267
第9 章 PySpark 实战 269
9. 1 实例8 使用 PySpark 处理地理空间数据 269
9. 2 思政拓展 272
9. 3 思考讨论 273
附录 常用参考资源链接 275
参考文献 276