本书介绍了当下流行的实时数据处理引擎Flink,讲解了流处理API、批处理API、机器学习引擎FlinkML、关系型API、复杂事件处理FLinkCEP,以及指标度量与部署模式。此外,本书展开分析了流式数据处理理论中时间、窗口、水印、触发器、迟到生存期之间的关联关系;深入分析了多项式曲线拟合、分类算法SVM、推荐算法ALS-WR的理论和FlinkML实现。希望快速上手Flink以开展实时大数据处理与在线机器学习应用的从业者,本书是不二的选择:本书首先介绍相关概念引入的原因、解决方案的演进过程、Flink的对应架构、编程案例以及开放式的思考问题。
作者简介
前言
第1章 流式数据架构理论
1.1 大数据处理架构演进历程
1.2 案例分析
1.3 流式数据架构基本概念
1.4 根据事件时间开滚动窗口
1.5 一致性
1.6 思考题
第2章 编程基础
2.1 Flink概述
2.2 让轮子转起来
2.3 编程模型
2.4 运行时
2.5 思考题
第3章 流处理API
3.1 流处理API概述
3.2 时间处理
3.3 算子
3.4 窗口
3.5 连接器
3.6 状态管理
3.7 检查点
3.8 思考题
第4章 批处理API
4.1 批处理API概述
4.2 算子
4.3 迭代
4.4 注解
4.5 思考题
第5章 机器学习引擎架构与应用编程
5.1 概述
5.2 流水线
5.3 深入分析多项式曲线拟合
5.4 分类算法
5.5 推荐算法
5.6 思考题
第6章 关系型API
6.1 为什么需要关系型API
6.2 Calcite
6.3 关系型API概述
6.4 动态表概述
6.5 思考题
第7章 复杂事件处理
7.1 什么是复杂事件处理
7.2 复杂事件处理的自动机理论
7.3 FlinkCEPAPI
7.4 基于FlinkCEP的股票异常交易检测的实现
7.5 思考题
第8章 监控与部署
8.1 监控
8.2 集群部署模式
8.3 访问安全
8.4 思考题
参考资料

