ASR-工业级中文语音识别系统
第一章 中文语音识别系统概述
1.1 项目背景
1.2 在百度DeepSpeech 2上的改进点
1.3 测试结果
1.4 训练调参经验
1.5 环境搭建
第二章 深度学习框架选择
2.1 Keras
2.2 Tensorflow
2.3 Theano
2.4 Kaldi
第三章 数据预处理
3.1 数据收集
3.2 数据过渡
3.3 单独的降噪模型
3.4 训练数据加噪
3.5 训练数据扭曲掩码
3.6 语音端点检测
第四章 特征提取
4.1 频谱图
4.2 Mel frequency
4.3 MFCC
4.4 i-vector
第五章 声学模型映射方式
5.1 映射1400个带声调拼音
5.2 映射410个不带声调拼音
5.3 直接映射5000个汉字
5.4 映射32个音素
5.5 映射词
第六章 声学模型结构
6.1 RNN
6.2 LSTM
6.3 GRU
6.4 CNN
6.5 全连接
6.6 Attention
第七章 语言模型融合方式
7.1 解码后语言模型重打分
7.2 解码过程中语言模型重打分
7.3 声学模型和语言模型联合训练
第八章 解码方式
8.1 贪婪搜索
8.2 集束搜索
第九章 语言模型
9.1 基于统计的n-gram语言模型
9.2 基于RNN的语言模型
9.3 基于bert的语言模型
第十章 损失函数
10.1 CTC损失
10.2 交叉熵损失
10.3 最小字错损失
第十一章 评价指标
11.1 字错率
11.2 句错率
11.3 业务关键词的召回率
11.4 响应时间
11.5 吞吐量
第十二章 模型部署
12.1 Django
12.2 Flask
12.3 Tornado
12.4 Tensorflow Serving
12.5 Tensorflow Lite
第十三章 常见问题
13.1 模型搭建
13.2 训练过程
13.3 部署过程
第十四章 其他语音相关模型的实现
14.1 声纹识别模型
14.2 语音情感识别模型
14.3 说话人性格识别模型
第十五章 常用操作
15.1 音频处理
15.2 文件传输
15.3 后台执行
15.4 c++代码包装成python
15.5 内存分析
Published with GitBook
4.1 频谱图
3.1 频谱图
results matching "
"
No results matching "
"