错误说明
自己设计样本,测试机器翻译模型数字翻译的准确率。
https://github.com/JunW15/NumberTest
对比了三个翻译模型,ABC,A 和 B 代表两个商业翻译模型,R 代表WMT的翻译模型
同时也对比了,低资源(LR)和高资源(HR)模型。
评价指标:PassRate(PR),就是ouput和输入是否匹配
作者总结出了常见的四种错误,关于Units也可以理解为numeral(作者在后文说明测试用例中具体we convert the digital num-ber into desired formats for testing (e.g., 1,230,000for a separator or 1.234 million for a numeral).)
主要分为以下四个template生成:
收集带有数字的句子,然后将数字地方用[NUM]替换,根据生成的不同数字文本替换 [NUM]。
任何模型,如何错误类型,都没有100%正确的。
官方提供的不太完善,自己测试能够运行的版本:https://github.com/taoztw/note/blob/master/NumberTest.ipynb
作者提出的缓解策略
- 区分对待数字翻译。
- 数据增强。
- 定制BPE切分,(将所有数字编码为有意义的序列或组件,比如处理英文时三个数字一组)
- 程序检查,是否一致
火山翻译也有数字的文章:https://zhuanlan.zhihu.com/p/405703415
它们在unit表现挺好,numeral层面比如:壹拾贰 翻译 不准确。