机器翻译的评价指标

BLEU

BLEU方法是对待评价的句子和groundtruth的n个grams进行比较，并计算出匹配片段的个数，这些匹配片段与它们在句子中的位置无关，匹配片段数越多越好。在BLEU方法中，首先逐个句子计算n-grams的匹配个数，然后将经过裁剪的n-grams匹配数加和，再除以待评价句子的n-grams总数。

ROUGE

ROUGE算法的基本思路和BLEU差不多，不过它统计的是召回率，也就是对于groundtruth中的短语，统计一下它们有多少个出现在机器翻译的译文中，其实就是看机器翻译有多少个翻译对了，这个评价指标主要在于groundtruth中的短语都出现过，那么机器翻译的译文越长结果越好。

METEOR

METEOR放大考虑了同义词，它用知识扩充了同义词集，同时考虑了单词的词形，也就是说词干相同的词也认为是部分匹配，也应该给予一定的奖励。在评价句子流畅性的时候，用了chunk的概念，即待评价句子与groundtruth能够对齐的、空间排列上连续的单词形成一个chunk，chunk数目越少意味着每个chunk的平均长度越长，也就是说两者的语序更加一致。该方法还是用了F值作为评价指标，同时考虑了准确率和召回率。

Cider

Cider这是为图像描述任务设计的评价指标，它是BLEU和空间模型的结合。它把每个句子看文档，然后计算TF-IDF向量的余弦夹角，据此得到待评价句子和groundtruth之间的相似度，不同长度的n-grams相似度取平均值得到最终结果。图像描述任务的评价要点是看有没有抓住关键信息，比如一幅图中【白天一个人撑着一把伞】，其中的关键信息是【伞】，生成描述时如果漏掉了一些别的信息，如【白天】，其实是不重要的，所以需要对非关键词的降权操作。

posted @ 2022-11-15 12:41 沐沐mu 阅读(262) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

沐沐mu

凡心所向，素履以往

机器翻译的评价指标

BLEU

ROUGE

METEOR

Cider