错误说明

自己设计样本,测试机器翻译模型数字翻译的准确率。

https://github.com/JunW15/NumberTest

对比了三个翻译模型,ABCAB 代表两个商业翻译模型,R 代表WMT的翻译模型

同时也对比了,低资源(LR)和高资源(HR)模型。

评价指标:PassRate(PR),就是ouput和输入是否匹配

四种主要错误类型

作者总结出了常见的四种错误,关于Units也可以理解为numeral(作者在后文说明测试用例中具体we convert the digital num-ber into desired formats for testing (e.g., 1,230,000for a separator or 1.234 million for a numeral).)

主要分为以下四个template生成:

收集带有数字的句子,然后将数字地方用[NUM]替换,根据生成的不同数字文本替换 [NUM]。

任何模型,如何错误类型,都没有100%正确的。

官方提供的不太完善,自己测试能够运行的版本:https://github.com/taoztw/note/blob/master/NumberTest.ipynb

作者提出的缓解策略

  1. 区分对待数字翻译。
  2. 数据增强。
  3. 定制BPE切分,(将所有数字编码为有意义的序列或组件,比如处理英文时三个数字一组)
  4. 程序检查,是否一致

火山翻译也有数字的文章:https://zhuanlan.zhihu.com/p/405703415

它们在unit表现挺好,numeral层面比如:壹拾贰 翻译 不准确。

End

本文标题:笔记-As Easy as 1, 2, 3: Behavioural Testing of NMT Systemsfor Numerical Translation

本文链接:https://www.tzer.top/archives/378.html

除非另有说明,本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

声明:转载请注明文章来源。

最后修改:2022 年 02 月 23 日
如果觉得我的文章对你有用,请随意赞赏