机器翻译的评价指标

BLEU

BLEU方法是对待评价的句子和groundtruth的n个grams进行比较,并计算出匹配片段的个数,这些匹配片段与它们在句子中的位置无关,匹配片段数越多越好。在BLEU方法中,首先逐个句子计算n-grams的匹配个数,然后将经过裁剪的n-grams匹配数加和,再除以待评价句子的n-grams总数。

ROUGE

ROUGE算法的基本思路和BLEU差不多,不过它统计的是召回率,也就是对于groundtruth中的短语,统计一下它们有多少个出现在机器翻译的译文中,其实就是看机器翻译有多少个翻译对了,这个评价指标主要在于groundtruth中的短语都出现过,那么机器翻译的译文越长结果越好。

METEOR

METEOR放大考虑了同义词,它用知识扩充了同义词集,同时考虑了单词的词形,也就是说词干相同的词也认为是部分匹配,也应该给予一定的奖励。在评价句子流畅性的时候,用了chunk的概念,即待评价句子与groundtruth能够对齐的、空间排列上连续的单词形成一个chunk,chunk数目越少意味着每个chunk的平均长度越长,也就是说两者的语序更加一致。该方法还是用了F值作为评价指标,同时考虑了准确率和召回率。

Cider

Cider这是为图像描述任务设计的评价指标,它是BLEU和空间模型的结合。它把每个句子看文档,然后计算TF-IDF向量的余弦夹角,据此得到待评价句子和groundtruth之间的相似度,不同长度的n-grams相似度取平均值得到最终结果。图像描述任务的评价要点是看有没有抓住关键信息,比如一幅图中【白天一个人撑着一把伞】,其中的关键信息是【伞】,生成描述时如果漏掉了一些别的信息,如【白天】,其实是不重要的,所以需要对非关键词的降权操作。

posted @ 2022-11-15 12:41  沐沐mu  阅读(262)  评论(0编辑  收藏  举报