近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。第一部分 大数据处理框架的基础知识(1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分 Spark大数据处理框架的核心理论(3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分 典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分 大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。
作者简介
内容简介
前言
读者服务
第一部分 大数据处理框架的基础知识
第1章 大数据处理框架概览
第2章 Spark系统部署与应用运行的基本流程
第二部分 Spark大数据处理框架的核心理论
第3章 Spark逻辑处理流程
第4章 Spark物理执行计划
第三部分 典型的Spark应用
第5章 迭代型Spark应用
第四部分 大数据处理框架性能和可靠性保障机制
第6章 Shuffle机制
第7章 数据缓存机制
第8章 错误容忍机制
第9章 内存管理机制
参考文献

