本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值。还阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及行日志反馈学习机制,使得搜索引擎更加智能。
本书适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
作者简介
内容简介
前言
第1章 引论
1.1 搜索引擎的过去
1.2 搜索引擎的现在
1.3 搜索引擎的未来
1.4 大数据与搜索引擎
1.5 大数据与人工智能
1.6 本章小结
第2章 搜索引擎原理与技术
2.1 基本工作原理
2.2 基本模块结构
2.3 技术概要
2.4 本章小结
第3章 自然语言处理框架
3.1 英文分词
3.2 中文分词
3.3 词性标注
3.4 语义相似度
3.5 依存句法分析
3.6 情感倾向分析
3.7 文档关键词抽取
3.8 文档句子相似度分析
3.9 文档核心句抽取
3.10 聚类分类
3.11 语种检测
3.12 本章小结
第4章 构建大数据存储引擎
4.1 架构体系
4.2 数据模型
4.3 数据压缩
4.4 负载均衡
4.5 数据存储逻辑视图
4.6 本章小结
第5章 构建分布式实时计算
5.1 概述
5.2 设计架构
5.3 运行模式
5.4 负载均衡
5.5 通信设计
5.6 容灾恢复
5.7 数据容错原理
5.8 数据处理设计示例
5.9 本章小结
第6章 分布式可扩展爬虫
6.1 爬虫体系架构
6.2 网页解析
6.3 网页结构化
6.4 网页抓取策略
6.5 爬虫权限应对
6.6 深网抓取
6.7 抓取更新策略
6.8 本章小结
第7章 大数据构建知识图谱
7.1 概述
7.2 搜索引擎与知识图谱
7.3 可靠数据源选择
7.4 实体抽取
7.5 关系抽取
7.6 知识图谱检测
7.7 知识推理与计算
7.8 知识聚类
7.9 智能搜索实现
7.10 智能搜索扩展
7.11 本章小结
第8章 索引构建机制
8.1 倒排索引
8.2 分布式存储
8.3 存储索引
8.4 字典树索引
8.5 本章小结
第9章 搜索服务构建
9.1 概述
9.2 大数据分布式缓存
9.3 文本纠错算法
9.4 结果显示算法
9.5 搜索智能提示
9.6 网页排序
9.7 个性化搜索
9.8 图片搜索
9.9 搜索与广告
9.10 搜索引擎评价
9.11 本章小结
第10章 基于用户日志的反馈学习
10.1 基于用户搜索词语的分析
10.2 基于用户点击日志的分析
10.3 基于用户的特征分析
10.4 本章小结
鸣谢

