Introduction

这可能是继百度deepspeech 2 之后可工业落地的中文语音识别系统的第一次公开发表。

在deepspeech 2的基础上做了改进,目前在清华开源数据上字错率0.03,数据堂电话语音数据上字错率0.02,句错率0.04,识别准确率可以达到业界最高水平。

最终的实时语音识别系统可在1s内响应12s以内8k采样的语音片段,能够满足特定领域的业务需求。


个人简介

陶瑞同学,一只认真写博客的菜鸟。

2017年年初,入行人工智能;

2017年12月,开始写博客,总结记录相关知识;

2018年10月,组建团队开始探索语音识别系统;

2020年1月,开始在这里写电子书,整理分析整个过程中的各种尝试考量;

内容持续更新,目录基本搭建完毕,计划年后开始一星期更新一个章节。


CSDN博客:https://taorui.blog.csdn.net

欢迎访问!

有问题可加QQ群进行讨论:777427008

results matching ""

    No results matching ""