本书分四个部分,第一部分主要介绍基础知识,包括认识机器学习和自然语言处理、快速上手Python、线性代数、概率论和统计学;第二部分主要介绍自然语言处理技术,包括自然语言处理介绍、语料库技术、中文分词、数据预处理、马尔科夫模型、条件随机场、模型评估、剖析自然处理工具背后的原理;第三部分主要介绍机器学习技术,包括认识机器学习、常见机器学习算法、机器学习算法案例源码实现。第四部分主要介绍工程项目实践,包括Python项目实战、自然语言处理项目实战、机器学习结合自然语言处理综合项目实战。
前言
作者介绍
第1章 基础入门
1.1 什么是自然语言处理
1.2 开发工具与环境
1.3 实战:第一个小程序的诞生
第2章 快速上手Python
2.1 初识Python编程语言
2.2 Python进阶
2.3 Python深入——第三方库
第3章 线性代数
3.1 线性代数介绍
3.2 向量
3.3 矩阵
3.4 距离计算
第4章 概率论
4.1 概率论介绍
4.2 事件
4.3 概率
4.4 概率公理
4.5 条件概率和全概率
4.6 贝叶斯定理
4.7 信息论
第5章 统计学
5.1 图形可视化
5.2 数据度量标准
5.3 概率分布
5.4 统计假设检验
5.5 相关和回归
第6章 语言学
6.1 语音
6.2 词汇
6.3 语法
第7章 自然语言处理
7.1 自然语言处理的任务和限制
7.2 自然语言处理的主要技术范畴
7.3 自然语言处理的难点
7.4 自然语言处理展望
第8章 语料库
8.1 语料库浅谈
8.2 语料库深入
8.3 自然语言处理工具包:NLTK
8.4 获取语料库
8.5 综合案例:走进大秦帝国
第9章 中文自动分词
9.1 中文分词简介
9.2 中文分词的特点和难点
9.3 常见中文分词方法
9.4 典型中文分词工具
9.5 结巴中文分词
第10章 数据预处理
10.1 数据清洗
10.2 分词处理
10.3 特征构造
10.4 特征降维与选择
10.5 简单实例
10.6 本章小结
第11章 马尔可夫模型
11.1 马尔可夫链
11.2 隐马尔可夫模型
11.3 向前算法解决HMM似然度
11.4 文本序列标注案例:Viterbi算法
第12章 条件随机场
12.1 条件随机场介绍
12.2 简单易懂的条件随机场
第13章 模型评估
13.1 从统计角度介绍模型概念
13.2 模型评估与选择
13.3 ROC曲线比较学习器模型
第14章 命名实体识别
14.1 命名实体识别概述
14.2 命名实体识别的特点与难点
14.3 命名实体识别方法
14.4 中文命名实体识别的核心技术
14.5 展望
第15章 自然语言处理实战
15.1 GitHub数据提取与可视化分析
15.2 微博话题爬取与存储分析
附录A Python与其他语言调用
附录B Git项目上传简易教程
参考文献
内容简介

