中文语音识别
项目背景
这是我调整了整整一年后落地的项目,效果能和科大讯飞媲美,不如讯飞的点是识别结果中没有标点符号,在特定领域准确率极高。
国内中文语音识别相关的有用资料很少,技术相对封闭,搜索引擎中能找到的方法基本上都是10年前的传统方法,早已过时。
在这个过程中踩了很多坑(开始两个月尝试先转拼音再转文字,fail),请教了很多人,很多个夜晚睡不着觉,想尽一切办法积累数据,有很多次会 想放弃,持续专注的做了一年,最终呈现一个效果还不错的结果。
很赞同季逸超的观点,互联网领域的idea不值钱,实现也不值钱,值钱的是“经过沉淀的idea + 反复推敲地执行”
贡献者名单
姓名 | 属性 | 主要贡献 |
---|---|---|
陶瑞 | 项目负责人 | 声学模型调整、声学模型数据收集和调整,模型训练及整体技术选型 |
盛长霞 | 团队成员 | 语言模型调整、语言模型数据收集和调整、语音端点检测算法实现、mozilla工程梳理 |
刘尧 | 团队成员 | 工程运维、数据收集 |
蒋志宇 | 团队成员 | 服务部署 |
袁文杰 | 外援 | 协助 |
赵若琪 | 团队成员 | 参与deepspeech2梳理 |
张瑞雄 | 外援 | 答疑解惑 |
柠檬博主 | 外援 | 答疑解惑 |
其他帮我答疑的同学暂时想不起来,想起来再补充,这里再次感谢以上同学对该项目的贡献。