搜索引擎技术与发展_图书

本书主要介绍如何使用Java语言开发搜索引擎，包括搜索引擎技术入门，使用Java开发网络爬虫，实现从文档中提取索引内容，中文分词的原理与实现，在Linux服务器端开发Solr应用，Spring Boot微服务框架实现的后端，以及React框架实现的前端等内容。第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具；第2章主要介绍网络爬虫开发和数据存储；第3章主要介绍从HTML文件中提取文本，以及从PDF、Word等非HTML文件中提取文本；第4章主要介绍Lucene中的中文分析器的原理与实现；第5章主要介绍Solr索引库的创建与维护，以及Solr的查询解析器；第6章主要介绍Web方式搜索结果界面的实现；第7章主要介绍如何使用SolrCloud实现分布式搜索。

作者

罗刚

猎兔搜索技术创始人

曾经担任国防大学科研处技术顾问

工信部舆情开发顾问

东南大学社会导师

首都师范大学金融课程讲师

北京石油化工学院社会导师

北大光华管理学院技术顾问

蓝汛公司搜索集群技术咨询顾问

新东方创新研究院研究员

查看全部

内容简介

前言

第1章遍历搜索引擎技术

1.1 快速上手搜索引擎

1.2 搜索语法

1.3 你也可以做搜索引擎

1.4 搜索引擎的基本技术

1.5 商业搜索引擎技术概述

1.6 本章小结

第2章获得海量数据

2.1 自己的网络爬虫

2.2 数据存储

2.3 本地部署

2.4 本章小结

第3章提取文档中的文本内容

3.1 从HTML文件中提取文本

3.2 从非HTML文件中提取文本

3.3 流媒体内容提取

3.4 本章小结

第4章中文分词

4.1 Lucene中的中文分词

4.2 中文分词的原理

4.3 查找词典算法

4.4 句子切分

4.5 有限状态机识别未登录串

4.6 最大概率分词方法

4.7 N元分词方法

4.8 新词发现

4.9 命名实体识别

4.10 词性标注

4.11 平滑算法

4.12 地名切分

4.13 本章小结

第5章 Solr服务器端开发

5.1 在Linux操作系统中安装Solr

5.2 创建和维护索引库

5.3 索引本地硬盘上的文件

5.4 使用Bean索引文档

5.5 更新索引库中的索引文档

5.6 删除数据

5.7 检测索引

5.8 查询解析器

5.9 本章小结

第6章用户界面的设计与实现

6.1 Solr搜索接口(search代码)

6.2 搜索页面设计

6.3 实现搜索接口

6.4 实现聚合

6.5 实现相似文档搜索

6.6 实现自动完成

6.7 搜索日志

6.8 React框架

6.9 本章小结

第7章 Solr分布式搜索

7.1 使用Solr实现分布式搜索

7.2 Jenkins持续集成

7.3 本章小结

参考文献

查看全部

书评

请您登录后发表评论登录 | 注册

我的评分：

提交

0/400