Facebook AI’s WMT21 News Translation Task Submission

自动评测14个方向第一。

采用了热门的多语言翻译模型,使用Mixture-of-Expert(MoE )模型,在不大量增加模型参数前提下,实现了较好的效果。(back translation,finetuning,averaging,rerank)

对于baseline模型,使用了加深的Transformer,batch size 76800 tokens,学习率 0.001, Adam优化器

Dense Transformer配置

大规模的回译,每个语言有500million数据。

训练数据增加,加深和加宽模型

微调10个epoch,选择验证集loss最低的模型。

平均最后5个模型。

为了解决finetuning容易过拟合的问题,将微调后的模型和初始训练的valid loss低的模型进行average

加深模型可能会带来不好的结果,可能有点过拟合。

对于训练数据较多的方向,使用back translation会使模型效果下降一点。

Figure 1表示,微调修正了过拟合。

End

本文标题:Facebook AI 2021 WMT论文笔记

本文链接:https://www.tzer.top/archives/229.html

除非另有说明,本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

声明:转载请注明文章来源。

最后修改:2021 年 11 月 15 日
如果觉得我的文章对你有用,请随意赞赏