本书介绍了Spark 3. 4. 0 生态核心组件,并涵盖了Hadoop3、HBase、Zookeeper、MySQL 等关联技术,构建了完整的大数据技术知识体系。全书共9 章,内容从大数据技术概述切入,逐步深入到Spark 大数据处理框架搭建、PySpark RDD 操作、PySpark DataFrame 应用、Spark SQL 与MySQL 的读写交互、Pandas API on Spark 的实践方法,以及基于DataFrame 的Spark MLlib 机器学习库使用;同时,详解了Structured Streaming 的工作原理、编程模型、状态管理与容错机制,并介绍了基于PySpark 操作HBase 数据库的实现方式,形成了由浅入深的知识脉络。
为强化实践应用,书中设计了8 个综合实例,包括英文词频统计、Spark SQL 与MySQL 的交互实践、基于pyspark. pandas 的数据处理分析、利用BisectingKMeans 算法进行文档聚类、基于用户协同过滤的电影推荐系统、Structured Streaming 流式数据处理、HBase 数据库读写操作及PySpark 地理空间数据处理,全面覆盖核心技术的实战场景。
本书兼具理论系统性与实践指导性,既可作为计算机科学与技术、数据科学与大数据技术、数据计算及应用、统计学、软件工程、人工智能、金融数学等专业的大数据课程教材,也能为大数据开发工程师、科研工作者等提供实用的技术参考,助力快速掌握Spark 生态及相关技术的应用要点。