大语言模型自动评分可靠性研究
探索基于概化理论的大规模写作评估中LLM自动评分可靠性
本研究调查大语言模型(LLMs)在AP中文语言文化考试写作任务评分中的可靠性估计。通过运用概化理论,研究评估并比较了人工评分员与AI评分员在两种AP中文自由应答写作任务(故事叙述和邮件回复)中的分数一致性。
这些论文由两名经过培训的人工评分员和七名AI评分员独立评分。每篇论文获得四个分数:一个整体分数和三个分析分数,分别对应任务完成度、表达效果和语言使用三个维度。
结果表明,虽然人工评分员总体产生更可靠的分数,但LLMs在特定条件下表现出合理的评分一致性,特别是在故事叙述任务中。结合人工和AI评分员的复合评分提高了可靠性,这支持混合评分模型可能为大规模写作评估带来益处。
研究设计:
- 采用AP中文考试的自由应答写作任务
- 包含故事叙述和邮件回复两种任务类型
- 使用七种不同的AI评分模型
- 采用整体评分和分析评分双轨制
主要发现:
- 人工评分员在整体可靠性方面表现更优
- LLMs在故事叙述任务中表现出更好的评分一致性
- 混合评分模式能够显著提升评分可靠性
- 不同评分维度(任务完成度、表达效果、语言使用)存在差异性
这项研究为大规模教育评估中AI评分系统的应用提供了实证依据,表明在特定条件下,LLMs可以作为有效的辅助评分工具。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码