小牛

模型压缩,加速

结构冗余,参数冗余,计算冗余

结构冗余

模型容量和性能通常是正向关系。

深度增加能够增强网络的表示能力,逐层对特征进行加工。

宽度受限于计算机指数级增长,受限于计算资源

深编码器-浅解码器结构:性能和速度权衡 选择12层编码器 2层解码器结构。系统运行速度会提升2倍,而且不会损失性能。

Sharing Attention Weights for fast transformer

An Efficient Transformer Decoder with Compressed Sub-layers

Learning Light-Weight Translation Models from Deep Transformer

参数冗余

知识蒸馏

weight Distillation: Transferring the Knowledge in Neural Network Parameters ACL 2021

计算冗余

解决INT8计算不兼容问题。

华为分享

翻译平台架构,

NMT Quality Estimation

神经机器翻译的三个大方向:

  • 更大双语的NMT
  • 多语言 NMT(部署一个模型就可以使用所有语言对,在工程上具有很大优势)
  • 多模态NMT

注意力机制,提升长句效果

Transformer架构,Attention is all you need VS attention is not all you need

KoBE:knowledge-based machine translation evaluation,减少漏译,有没有实体差别,实体对齐与否。

澳门大学

翻译模型的学习规律和训练策略

课程学习,先从简单样本开始学习,逐渐进不到复杂样本学习。如何确定模型学好了,什么时候需要更近一步学习?

  • 定义句子的难易。句长,词频
  • 课程设计
  • 模型学习进度

模型不确定性 uncertainty-aware Couuiculum learning for NMT

vector Norm,Norm-based Curriculum learning for NMT,norm随着BLEU的增加而增加

self-spaces for learning,影响模型(难易)更新权重

达到baseline训练时间缩短了,

科大讯飞

多语种语音

混度

南京大学

黄书剑博士

基于协同关系的非自回归生成研究

优势:

  • 生成并行有助于提升翻译效率
  • 减少翻译过程中的错误累积

劣势:

  • 过强的独立性假设可能影响翻译质量

复杂关联关系建模 linear-CRF

End

本文标题:小牛论坛笔记(2021)

本文链接:https://www.tzer.top/archives/373.html

除非另有说明,本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

声明:转载请注明文章来源。

最后修改:2022 年 02 月 21 日
如果觉得我的文章对你有用,请随意赞赏