本书以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。

作者

许鹏长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。

查看全部
目录

摘要

前言

第一部分 Spark概述

第1章 初识Spark

第二部分 Spark核心概念

第2章 Spark整体框架

第3章 Spark Context初始化

第4章 Spark作业提交

第5章 部署方式分析

第三部分 Spark Lib

第6章 Spark Streaming

第7章 SQL

第8章 Graph X

第9章 MLLib

第四部分 附录

附录A Spark源码调试

附录B 源码阅读技巧

查看全部
书评
查看更多
请您登录后发表评论 登录 | 注册
我的评分:
提交
0/400