机器翻译评测指标
1. BLEU
基于n-gram的精度度量。在最初的机器翻译上需要考虑准确率(不能将一些重要词汇预测错误,例如将狗翻译成人,如unigram)和流畅性(是不是正常的句子,体现在高阶的gram)。
- 计算
译文与参考的n-gram匹配程度

讯享网
由于短句的分数通常高于长句,因此引入短句惩罚因子 B P BP BP


- 优缺点:但是BLEU只关注准确率Precision(译文中有多少在参考中出现了),而没有考虑召回率(参考中有多少译文中没有翻译到),此外尽管公式中有对短句子的惩罚,但是在实践中还是普遍认为BLEU更喜欢短句
2. ROUGE
ROUGE与BLEU的计算方式类似,都是基于n-gram,只是ROUGE只考虑了召回率Recall。
- 计算
在实验中一般使用ROUGE_L,是基于最长公共子序列的F值

- 优缺点:因为神经网络机器翻译很容易生成流畅的句子,但是内容的正确性难以保证(例如凭空出现什么东西),所以用召回率来限制翻译的句子是不是正确。
3. METEO
METEOR主要是考虑到有些翻译可能正确的,只是没有对上译文的情况,考虑了同义词和词性,用wordnet扩充了同义词集。在评价流畅性方面,使用了chunk的概念,将位于生成的句子中相邻位置,且在参考句子中也位于相邻位置的词称为一个块,这样n-gram越长,组成的块的数量越少,惩罚项越小。

- 计算:在计算上,考虑了准确率和召回率,使用F值作为评价指标

计算惩罚系数(一般 γ \gamma γ取0.5, θ \theta θ取3,惩罚系数 P e n a l t y Penalty Penalty最大取0.5)

最终METEOR指标计算

4. CIDEr
CIDEr 首先将 n-grams 在参考译文中出现的频率编码进来,通过TF-IDF 计算每个 n-gram 的权重,将句子用 n-gram 表示成向量的形式,然后计算参考译文和候选译文之间的 TF-IDF 向量余弦距离,以此度量二者的相似性。
- 计算
对所有n-gram计算tf-idf:第一项为tf,表示n-gram w k w_k wk的词频;第二项为idf,分子为所有图像总数量,分母为参考中出现 w k w_k wk对应的图像的数量。句子中所有n-grams组成的向量为tf-idf向量

译文和参考tf-idf之间的余弦距离(参考有m个句子)

使用多种长度的n-gram

- 优缺点:以上三种指标都是针对机器翻译提出的,而CIDEr是针对image caption提出的,更符合人类在评价描述的感受
参考资料:
直观理解
bleu和meteor的计算
生成任务中的评价指标BLEU/ROUGE/METEOR
用于图像描述的评价指标CIDEr讲解
BLEU,ROUGE,METEOR,ROUGE-浅述自然语言处理机器翻译常用评价度量
NLP基础知识点:CIDEr算法
补充知识
准确率、召回率和F值
准确率和召回率
准确率Precision、召回率Recall、F值 F Measure










版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/39327.html