Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等,在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。《Druid实时大数据分析原理与实践》的目的就是帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、高级特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。Druid 的生态系统正在不断扩大和成熟,Druid 也正在解决越来越多的业务场景。希望本书能帮助技术人员做出更好的技术选型,深度了解Druid 的功能和原理,更好地解决大数据分析问题。《Druid实时大数据分析原理与实践》适合大数据分析的从业人员、IT 人员、互联网从业者阅读。
作者简介
内容简介
Foreword
序言
推荐序一
推荐序二
推荐语(排名不分先后)
前言
第1章 初识Druid
1.1 Druid是什么
1.2 大数据分析和Druid
1.3 Druid的产生
1.4 Druid的三个设计原则
1.5 Druid的技术特点
1.6 Druid的HelloWorld
1.7 系统的扩展性
1.8 性能指标
1.9 Druid的应用场景
1.10 小结
参考资料
第2章 数据分析及相关软件
2.1 数据分析及相关概念
2.2 数据分析软件的发展
2.3 数据分析软件的分类
2.4 小结
参考资料
第3章 架构详解
3.1 Druid架构概览
3.2 Druid架构设计思想
3.3 扩展系统
3.4 实时节点
3.5 历史节点
3.6 查询节点
3.7 协调节点
3.8 索引服务
3.9 小结
第4章 安装与配置
4.1 安装准备
4.2 简单示例
4.3 规划与部署
4.4 基本配置
4.5 集群节点配置示例
4.6 小结
第5章 数据摄入
5.1 数据摄入的两种方式
5.2 流式数据摄取
5.3 静态数据批量摄取
5.4 流式与批量数据摄取的结合
5.5 数据摄取的其他重要知识
5.6 小结
第6章 数据查询
6.1 查询过程
6.2 组件
6.3 案例介绍
6.4 Timeseries
6.5 TopN
6.6 GroupBy
6.7 Select
6.8 Search
6.9 元数据查询
6.10 小结
第7章 高级功能和特性
7.1 近似直方图(ApproximateHistogram)
7.2 数据Sketch
7.3 地理查询(GeographicQuery)
7.4 Router
7.5 Kafka索引服务
7.6 SupervisorAPI
7.7 最佳实践
7.8 小结
第8章 核心源代码探析
8.1 如何编译Druid代码
8.2 Druid项目介绍
8.3 索引结构模块和层次关系
8.4 Column结构
8.5 Segment
8.6 Query模块
8.7 Coordinator模块
8.8 小结
第9章 监控和安全
9.1 Druid监控
9.2 Druid告警
9.3 Druid安全
9.4 小结
第10章 实践和应用
10.1 小米
10.2 优酷土豆
10.3 腾讯
10.4 蓝海讯通
10.5 小结
第11章 Druid生态与展望
11.1 Druid生态系统
11.2 Druid生态系统资源
11.3 Druid的社区讨论组
11.4 Druid展望
参考资料
附录A 常见问题(FAQ)
A.1 写入
A.2 查询
A.3 管理
A.4 应用
附录B 常用参数表
B.1 扩展
B.2 Zookeeper
B.3 Metric
B.4 CoordinatorNode(协调节点)
B.5 查询相关
B.6 HistoricalNode(历史节点)
B.7 Overlord配置
B.8 MiddleManager配置
B.9 Peon配置

