本书在第1版的基础上,介绍大数据的时代背景及应用方案、常用的离线大数据和流式大数据组件,以及基于云平台的容器级数据平台搭建。书中以离线大数据和流式大数据两个具体示例,贯穿本书的第二、三部分内容,对组件之间的协同工作关系进行剖析。书中的代码部分基本上使用Python编写,用户可以下载参考。如果你是一位在校学生、Python编程爱好者或是想转行从事大数据工作的在职IT人员,阅读本书必有所收获!
作者简介
内容简介
前言
序言
第一部分 大数据概述
第1章 大数据的时代背景及应用落地
第2章 大数据系统的安装及配置
第二部分 离线大数据处理
第3章 使用Python爬虫获取数据
第4章 Hive在大数据中的角色
第5章 使用HBase实现大数据存储
第6章 Spark数据分析引擎
第7章 使用Flask实现数据展示
第二部分 技术点总结
第三部分 流式大数据处理
第8章 使用Flume获取网站访问日志
第9章 Kafka的安装、配置及其与Flume的整合
第10章 Redis数据库简介
第11章 Flink简介及其与Kafka的整合
第12章 网站页面访问量的动态展示
第三部分 技术点总结
第四部分 云平台搭建
第13章 搭建基于云平台的容器级数据系统

