LLM-as-a-judge有30%评测偏差?这篇论文给出修复方案

用LLM给LLM打分,这个看起来很聪明的做法正在让AI评估变得不可靠。KRAFTON AI的这个工作直指当前LLM评估体系的软肋:作为评判者的语言模型本身就带有系统性偏差,而这种偏差在Chatbot Arena等主流基准测试中可以达到30%左右。也就是说排行榜上那些令人兴奋的性能提升,有相当一部分可能是评估方法的偏差。

评判机制的运作方式

LLM-as-a-judge就是让一个语言模型去评价另一个模型的输出,典型的prompt类似于"这个回答正确吗"或者"两个回答哪个更好"。评判者返回分数或偏好,汇总后得到准确率、胜率之类的指标。

这套流程看着非常完美:人工标注既慢又贵,尤其对话、摘要、创意写作这类开放式任务更是如此,而LLM评判者成本低、速度快、输出稳定,还能给出看起来很有说服力的理由。

所以LLM-as-a-judge已经成了事实上的行业标准,Chatbot Arena用它、无数论文也用它。

 

https://avoid.overfit.cn/post/17bc4cc132b4453daed96e931c74b6b8

posted @ 2026-01-09 22:40  deephub  阅读(17)  评论(0)    收藏  举报