训练调参经验

训练调参经验

参数 调整 分析
数据过度 先开源数据,后业务数据 先用开源数据做预训练使模型收敛,再用垂直领域的业务数据做fine-tune
batch size 16 尝试过16、32、64,设置16的情况下训练效果最好。batch size变小,数据拟合能力更好,训练时长会更长
验证集大小 3000 放大验证集,结果更有说服力,训练时长会更长
优化器 adam 尝试过adam、SGD、adam+SGD、NAG。adam学习率自适应,比较智能
学习率 2e-4 - 4e-6 前期学习率大一点,后期小一点。loss出现nan,一般来说是学习率太大,应该减小学习率

失败的尝试

调整 失败原因
声学模型映射1400个带声调的拼音 声调的特征不是独立占位的,其特征包含在拼音的位置里面,而ctc损失计算的本质是给每一帧做分类,所以这>样训练的效果并不好。
声学模型映射410个不带声调的拼音 映射单元减少了准确率提升特别大,单纯音频转拼音这个环节的准确率提升很大,准确率很高,beam search解top-n能保证极高的召回率,但是拼音进一步转汉字的阶段效果很差,主要是在短句上的效果不好,长句上的效果还不错,这个阶段和拼音输入法的>原理一样。

results matching ""

    No results matching ""