Learning Deep Transformer Models for Machine Translation ACL

提出了两个方法,pre-norm和dlcl,比transformer big 更小的模型大小 和更快的训练。BLEU提升0.4~2.4.

通过这个方法 可以训练更深的网络,缓解梯度消失的问题。但是性能没有很大的提升。

pre-norm

通过求导可以发现在网络更深时候$l$较大时候,post-norm容易出现梯度消失,.

Dynamic Linear Combination of Layers

pre-norm式子

post-norm式子

W是一个learnable参数。

End

本文标题:Deep Transformer(DLCL, pre-norm)

本文链接:https://www.tzer.top/archives/304.html

除非另有说明,本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

声明:转载请注明文章来源。

最后修改:2021 年 12 月 14 日
如果觉得我的文章对你有用,请随意赞赏