Kaldi是目前语音识别领域,广受欢迎并流行的开源工具包。Kaldi设计之初对通用性,可拓展性等一系列源代码层次的考量,大大降低了Kaldi作为语音识别工具包的门槛, 同时拥有非常完整的语音识别系统训练脚本。本书通过对Kaldi已有训练脚本的梳理和引导,帮助读者快速搭建可用的语音识别系统。
内容简介
序1
序2
好评来袭
作者简介
前言
1 语音识别技术基础
1.1 语音识别极简史
1.2 语音识别系统架构
1.3 一些其他细节
2 Kaldi概要介绍
2.1 发展历史
2.2 设计思想
2.3 安装
2.4 一个简单的示例
2.5 示例介绍
3 数据整理
3.1 数据分集
3.2 数据预处理
3.3 输入和输出机制
3.4 常用数据表单与处理脚本
3.5 语言模型相关文件
4 经典声学建模技术
4.1 特征提取
4.2 单音子模型的训练
4.3 三音子模型训练
4.4 特征变换技术
4.5 区分性训练
5 构图和解码
5.1 N元文法语言模型
5.2 加权有限状态转录机
5.3 用WFST表示语言模型
5.4 状态图的构建
5.5 图的结构优化
5.6 最终状态图的生成
5.7 基于令牌传递的维特比搜索
5.8 SimpleDecoder源码分析
5.9 Kaldi解码器家族
5.10 带词网格生成的解码
5.11 用语言模型重打分提升识别率
6 深度学习声学建模技术
6.1 基于神经网络的声学模型
6.2 神经网络在Kaldi中的实现
6.3 神经网络模型训练
6.4 神经网络的区分性训练
6.5 与其他深度学习框架的结合
7 关键词搜索与语音唤醒
7.1 关键词搜索技术介绍
7.2 语音检索
7.3 语音唤醒
8 说话人识别
8.1 概述
8.2 基于i-vector和PLDA的说话人识别技术
8.3 基于深度学习的说话人识别技术
8.4 语种识别
9 语音识别应用实践
9.1 语音识别基本应用
9.2 话音检测模块
9.3 模型的适应
9.4 解码器的选择及扩展
附录A 术语列表
附录B 常见问题解答
参考文献

