Learning Deep Transformer Models for Machine Translation ACL
提出了两个方法,pre-norm和dlcl,比transformer big 更小的模型大小 和更快的训练。BLEU提升0.4~2.4.
通过这个方法 可以训练更深的网络,缓解梯度消失的问题。但是性能没有很大的提升。
pre-norm
通过求导可以发现在网络更深时候$l$较大时候,post-norm容易出现梯度消失,.
Dynamic Linear Combination of Layers
W是一个learnable参数。