Introduction

这可能是继百度deepspeech 2 之后可工业落地的中文语音识别系统的第一次公开发表。

在deepspeech 2的基础上做了改进，目前在清华开源数据上字错率0.03，数据堂电话语音数据上字错率0.02，句错率0.04，识别准确率可以达到业界最高水平。

最终的实时语音识别系统可在1s内响应12s以内8k采样的语音片段，能够满足特定领域的业务需求。

陶瑞同学，一只认真写博客的菜鸟。

2017年年初，入行人工智能；

2017年12月，开始写博客，总结记录相关知识；

2018年10月，组建团队开始探索语音识别系统；

2020年1月，开始在这里写电子书，整理分析整个过程中的各种尝试考量；

内容持续更新，目录基本搭建完毕，计划年后开始一星期更新一个章节。

欢迎访问！

有问题可加QQ群进行讨论：777427008

ASR-工业级中文语音识别系统