Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。本书着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析。全书共分8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核上的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合大数据技术初学者阅读,还适合于所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。

作者

经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。

查看全部
目录

内容简介

前言

第1章 Spark导论

1.1 Spark的发展

1.2 什么是Spark

1.3 Spark主要特征

第2章 Spark集群部署

2.1 运行环境说明

2.2 安装VMware Workstation 11

2.3 安装CentOS 6

2.4 安装Hadoop

2.5 安装Scala

2.6 安装Spark

2.7 启动Spark

第3章 RDD编程

3.1 RDD定义

3.2 RDD的特性

3.3 创建操作

3.4 常见执行操作

3.5 常见转换操作

3.6 持久化操作

3.7 存储操作

第4章 Spark调度管理与应用程序开发

4.1 Spark调度管理基本概念

4.2 作业调度流程

4.3 基于IntelliJ IDEA构建Spark应用程序

第5章 GraphX

5.1 GraphX概述

5.2 GraphX基本原理

5.3 GraphX设计与实现

5.4 GraphX操作

5.5 GraphX案例解析

第6章 Spark SQL

6.1 Spark SQL概述

6.2 Spark SQL逻辑架构

6.3 Spark SQL CLI

6.4 DataFrame编程模型

6.5 DataFrame常见操作

6.6 基于Hive的学生信息管理系统的SQL查询案例与解析

第7章 Spark Streaming

7.1 Spark Streaming概述

7.2 Spark Streaming基础概念

7.3 DStream基本概念

7.4 DStream的基本操作

7.5 数据源

7.6 Spark Streaming编程模式与案例分析

7.7 性能考量

第8章 Spark MLlib

8.1 Spark MLlib概述

8.2 MLlib向量与矩阵

8.3 Spark MLlib分类算法

8.4 MLlib线性回归算法

8.5 MLlib聚类算法

8.6 MLlib协同过滤

查看全部
书评
查看更多
请您登录后发表评论 登录 | 注册
我的评分:
提交
0/400