Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。本书着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析。全书共分8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核上的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合大数据技术初学者阅读,还适合于所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。
内容简介
前言
第1章 Spark导论
1.1 Spark的发展
1.2 什么是Spark
1.3 Spark主要特征
第2章 Spark集群部署
2.1 运行环境说明
2.2 安装VMware Workstation 11
2.3 安装CentOS 6
2.4 安装Hadoop
2.5 安装Scala
2.6 安装Spark
2.7 启动Spark
第3章 RDD编程
3.1 RDD定义
3.2 RDD的特性
3.3 创建操作
3.4 常见执行操作
3.5 常见转换操作
3.6 持久化操作
3.7 存储操作
第4章 Spark调度管理与应用程序开发
4.1 Spark调度管理基本概念
4.2 作业调度流程
4.3 基于IntelliJ IDEA构建Spark应用程序
第5章 GraphX
5.1 GraphX概述
5.2 GraphX基本原理
5.3 GraphX设计与实现
5.4 GraphX操作
5.5 GraphX案例解析
第6章 Spark SQL
6.1 Spark SQL概述
6.2 Spark SQL逻辑架构
6.3 Spark SQL CLI
6.4 DataFrame编程模型
6.5 DataFrame常见操作
6.6 基于Hive的学生信息管理系统的SQL查询案例与解析
第7章 Spark Streaming
7.1 Spark Streaming概述
7.2 Spark Streaming基础概念
7.3 DStream基本概念
7.4 DStream的基本操作
7.5 数据源
7.6 Spark Streaming编程模式与案例分析
7.7 性能考量
第8章 Spark MLlib
8.1 Spark MLlib概述
8.2 MLlib向量与矩阵
8.3 Spark MLlib分类算法
8.4 MLlib线性回归算法
8.5 MLlib聚类算法
8.6 MLlib协同过滤

