本书在第1版的基础上,介绍大数据的时代背景及应用方案、常用的离线大数据和流式大数据组件,以及基于云平台的容器级数据平台搭建。书中以离线大数据和流式大数据两个具体示例,贯穿本书的第二、三部分内容,对组件之间的协同工作关系进行剖析。书中的代码部分基本上使用Python编写,用户可以下载参考。如果你是一位在校学生、Python编程爱好者或是想转行从事大数据工作的在职IT人员,阅读本书必有所收获!

作者

刘未昕:从事lT研发和项目管理工作十余年。使用多种程序设计语言,目前研究方向主要是大数据生态系统,从事金融、数据仓库等领域研发。五年以上IT行业授课、培训经验,并在多所高校担任外聘讲师。 张粤磊:DBA、大数据架构师,十余年一线数据处理数据分析实战经验。先后在咨询、金融、互联网行业担任数据平台技术负责人或架构师。主要关注大数据基础平台、大数据模型构建和大数据分析。 张魁:虚拟化工程师,OpenStack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。先后在美企担任虚拟化应用运维、服务器集群开发运维工程师或系统开发架构师,高校信息中心云平台架构师,主要关注OpenStack、Docker及分布式存储等。 吴茂贵:运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。近期主要做复杂数据存储、清理、转换等工作,同时在大数据方面也很有兴趣并投入大量时间和精力,且将持续为之。

查看全部
目录

作者简介

内容简介

前言

序言

第一部分 大数据概述

第1章 大数据的时代背景及应用落地

第2章 大数据系统的安装及配置

第二部分 离线大数据处理

第3章 使用Python爬虫获取数据

第4章 Hive在大数据中的角色

第5章 使用HBase实现大数据存储

第6章 Spark数据分析引擎

第7章 使用Flask实现数据展示

第二部分 技术点总结

第三部分 流式大数据处理

第8章 使用Flume获取网站访问日志

第9章 Kafka的安装、配置及其与Flume的整合

第10章 Redis数据库简介

第11章 Flink简介及其与Kafka的整合

第12章 网站页面访问量的动态展示

第三部分 技术点总结

第四部分 云平台搭建

第13章 搭建基于云平台的容器级数据系统

查看全部
书评
查看更多
请您登录后发表评论 登录 | 注册
我的评分:
提交
0/400