本书详细介绍大数据环境下的常用的数据库和相关工具,包括HBase、Hive、Impala、Spark、Spark SQL、键值数据库和流式数据库等,给出了详细的工作机理和应用方法,并给出完整的实践案例和代码。

作者

  刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。


  主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛最高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站。


查看全部
目录

内容简介

总序

前言

第1章 大数据库概述

1.1 传统关系型数据库面临的问题

1.2 大数据库技术

1.3 大数据SQL

1.4 当前主流大数据SQL简介

1.5 本章总结

习题

参考文献

第2章 分布式数据库HBase

2.1 HBase基础

2.2 HBase操作简介

2.3 HBase实战

习题

参考文献

第3章 数据仓库工具Hive

3.1 Hive简介

3.2 Hive的使用

3.3 实战Hive Shell

3.4 实战Hive之复杂语句

3.5 实战Hive之综合示例

3.6 实战Hive API接口

习题

参考文献

第4章 大数据查询系统Impala

4.1 Impala简介

4.2 Impala工作原理

4.3 Impala环境搭建

4.4 Impala操作实例

习题

参考文献

第5章 内存数据库Spark

5.1 Spark简介

5.2 Spark计算模型

5.3 Spark工作机制

5.4 Scala快速入门

5.5 Spark环境部署

5.6 Spark编程案例

习题

参考文献

注释

第6章 Spark SQL

6.1 Spark SQL简介

6.2 Spark SQL编程基础

6.3 Spark SQL实战

习题

参考文献

第7章 键值数据库

7.1 概述

7.2 Redis

7.3 Memcached

7.4 典型应用及局限

习题

参考文献

第8章 流式数据库

8.1 流式计算模型

8.2 流式计算关键技术

8.3 Storm平台

8.4 Spark Streaming平台

习题

参考文献

第9章 大数据应用托管平台Docker

9.1 Docker技术简介

9.2 Docker的优势和局限

9.3 基于Docker的大数据系统设计

习题

参考文献

查看全部
书评
查看更多
请您登录后发表评论 登录 | 注册
我的评分:
提交
0/400