Introduction
这可能是继百度deepspeech 2 之后可工业落地的中文语音识别系统的第一次公开发表。
在deepspeech 2的基础上做了改进,目前在清华开源数据上字错率0.03,数据堂电话语音数据上字错率0.02,句错率0.04,识别准确率可以达到业界最高水平。
最终的实时语音识别系统可在1s内响应12s以内8k采样的语音片段,能够满足特定领域的业务需求。
个人简介
陶瑞同学,一只认真写博客的菜鸟。
2017年年初,入行人工智能;
2017年12月,开始写博客,总结记录相关知识;
2018年10月,组建团队开始探索语音识别系统;
2020年1月,开始在这里写电子书,整理分析整个过程中的各种尝试考量;
内容持续更新,目录基本搭建完毕,计划年后开始一星期更新一个章节。
CSDN博客:https://taorui.blog.csdn.net
欢迎访问!
有问题可加QQ群进行讨论:777427008