大语言模型自动评分可靠性研究

探索基于概化理论的大规模写作评估中LLM自动评分可靠性

本研究调查大语言模型(LLMs)在AP中文语言文化考试写作任务评分中的可靠性估计。通过运用概化理论,研究评估并比较了人工评分员与AI评分员在两种AP中文自由应答写作任务(故事叙述和邮件回复)中的分数一致性。

这些论文由两名经过培训的人工评分员和七名AI评分员独立评分。每篇论文获得四个分数:一个整体分数和三个分析分数,分别对应任务完成度、表达效果和语言使用三个维度。

结果表明,虽然人工评分员总体产生更可靠的分数,但LLMs在特定条件下表现出合理的评分一致性,特别是在故事叙述任务中。结合人工和AI评分员的复合评分提高了可靠性,这支持混合评分模型可能为大规模写作评估带来益处。

研究设计

  • 采用AP中文考试的自由应答写作任务
  • 包含故事叙述和邮件回复两种任务类型
  • 使用七种不同的AI评分模型
  • 采用整体评分和分析评分双轨制

主要发现

  1. 人工评分员在整体可靠性方面表现更优
  2. LLMs在故事叙述任务中表现出更好的评分一致性
  3. 混合评分模式能够显著提升评分可靠性
  4. 不同评分维度(任务完成度、表达效果、语言使用)存在差异性

这项研究为大规模教育评估中AI评分系统的应用提供了实证依据,表明在特定条件下,LLMs可以作为有效的辅助评分工具。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-30 20:06  CodeShare  阅读(2)  评论(0)    收藏  举报