本书以实用的、可操作的视角解释了大数据――采用黑猩猩和大象的隐喻,基于棒球统计数据集,使用Apache Hadoop和Pig等工具展示了如何处理大规模数据。此外,通过处理真实数据、解决现实问题,作者还以实例的形式总结了一些实践分析模式,为有创造力的分析人员提供了*强大、*有价值的方法。本书特别适合那些需要大数据工具箱来解决实际问题的人们。

作者

唐李洋,女,博士,中国电子科技集团公司第三十八研究所,工程师,目前从事公共安全等领域相关的大数据分析与数据挖掘工作。译有《高可用MySQL》(第1和第2版)、《R语言高性能编程》等书。 Philip Kromer是云大数据平台领先者Infochimps的创始人和CTO,以及Vigilante的联合创始人。他的其中一个项目WuKong,是Hadoop Ruby流处理*常使用的框架之一。__eol__Russell Jurney是全球经济市场地图创业公司Relato的创始人和CEO。他曾任LinkedIn产品分析数据科学家,还是一个Hadoop传道士。

查看全部
目录

内容简介

O'Reilly Media,Inc.介绍

前言

第一部分 入门:理论和工具

第1章 Hadoop基础

第2章 Map Reduce

第3章 棒球数据集速览

第4章 Pig入门

注释

第二部分 战术:分析模式

第5章 Map-Only操作

第6章 分组操作

第7章 表连接

第8章 排序操作

第9章 重复记录和唯一记录

注释

索引

关于作者

封面介绍

查看全部
书评
查看更多
请您登录后发表评论 登录 | 注册
我的评分:
提交
0/400