训练调参经验
训练调参经验
参数 | 调整 | 分析 |
---|---|---|
数据过度 | 先开源数据,后业务数据 | 先用开源数据做预训练使模型收敛,再用垂直领域的业务数据做fine-tune |
batch size | 16 | 尝试过16、32、64,设置16的情况下训练效果最好。batch size变小,数据拟合能力更好,训练时长会更长 |
验证集大小 | 3000 | 放大验证集,结果更有说服力,训练时长会更长 |
优化器 | adam | 尝试过adam、SGD、adam+SGD、NAG。adam学习率自适应,比较智能 |
学习率 | 2e-4 - 4e-6 | 前期学习率大一点,后期小一点。loss出现nan,一般来说是学习率太大,应该减小学习率 |
失败的尝试
调整 | 失败原因 |
---|---|
声学模型映射1400个带声调的拼音 | 声调的特征不是独立占位的,其特征包含在拼音的位置里面,而ctc损失计算的本质是给每一帧做分类,所以这>样训练的效果并不好。 |
声学模型映射410个不带声调的拼音 | 映射单元减少了准确率提升特别大,单纯音频转拼音这个环节的准确率提升很大,准确率很高,beam search解top-n能保证极高的召回率,但是拼音进一步转汉字的阶段效果很差,主要是在短句上的效果不好,长句上的效果还不错,这个阶段和拼音输入法的>原理一样。 |