On the Impact of Various Types of Noise on Neural Machine Translation

增加网络爬取噪音数据之后,NMT翻译能力下降很大。SMT表现受噪音能力影响小。

错误分类为:

  • MISALIGNED SENTENCES:不对齐的句子
  • MISORDERED WORD:不流利的句子 (判断句子不流利具有一些主观因素)
  • WRONG LANGUAGE:比如英中翻译,加入英日翻译语料
  • UNTRANLATED SENTENCES:不翻译的句子,tgt=src
  • SHORT SEGMENTS:分为 <=2 和 2-5的

模型:

  • SMT: Moses 短语翻译模型
  • NMT:RNN

结论:

UNTRANLATED SENTENCES对NMT翻译结果影响最大,NMT的复制机制。

WRONG LANGUAGE 加入其他语言,SMT和NMT表现都很健壮。对NMT影响不太大

SHORT SEGMENTS: 2-5 toks长度对SMT和NMT还有些增强作用

End

本文标题:不同数据噪音对SMT NMT模型的影响

本文链接:https://www.tzer.top/archives/235.html

除非另有说明,本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

声明:转载请注明文章来源。

最后修改:2021 年 11 月 18 日
如果觉得我的文章对你有用,请随意赞赏