大语言模型自动评分可靠性研究

探索基于概化理论的大规模写作评估中LLM自动评分可靠性

本研究调查大语言模型（LLMs）在AP中文语言文化考试写作任务评分中的可靠性估计。通过运用概化理论，研究评估并比较了人工评分员与AI评分员在两种AP中文自由应答写作任务（故事叙述和邮件回复）中的分数一致性。

这些论文由两名经过培训的人工评分员和七名AI评分员独立评分。每篇论文获得四个分数：一个整体分数和三个分析分数，分别对应任务完成度、表达效果和语言使用三个维度。

结果表明，虽然人工评分员总体产生更可靠的分数，但LLMs在特定条件下表现出合理的评分一致性，特别是在故事叙述任务中。结合人工和AI评分员的复合评分提高了可靠性，这支持混合评分模型可能为大规模写作评估带来益处。

研究设计：

主要发现：

这项研究为大规模教育评估中AI评分系统的应用提供了实证依据，表明在特定条件下，LLMs可以作为有效的辅助评分工具。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-30 20:06 CodeShare 阅读(21) 评论(0) 收藏举报

刷新页面返回顶部