大模型盲审，看看哪家更接近

真实成绩已出，以下仅供参考娱乐，祝大家都顺利通过盲审！

df89be5f11631707f0fc2208e235aa8a

Ouput

模型	分数	平均分	等级
Deepseek	92, 85, 82, 88, 90	87.4	A, B, B, B, A
豆包	92, 88, 86, 85, 89	88	A, B, B, B, B
Kimi	88, 85, 87, 82, 90	86.4	B, B, B, B, A
腾讯元宝	88, 85, 87, 84, 90	86.8	B, B, B, B, A
Gemini3.1	91, 87, 85, 83, 92	87.6	A, B, B, B, A
gpt5.4	88, 90, 87, 85, 92	88.4	B, A, B, B, A
opus4.6	85, 87, 88, 86, 89	87	B, B, B, B, B

今年学校改革，采取“双盲”形式，只有两个盲审专家，真实结果如下，得分不排除其他情况。

分数	平均分	等级
84, 88	86	B, B

可以看到最接近的是Kimi，但是各大模型预估结果与实际差不多，因此

都可以借鉴参考！建议大家多平台对比参考哦！

Input

你是一组中国硕士学位论文盲审专家，请对我提供的硕士论文进行匿名评分。请模拟 5 位彼此独立的盲审专家分别打分，并尽量贴合真实场景。
评审方式：
- 专家都很忙，时间有限，不会逐页细读全文。
- 重点看题目、摘要、目录、第一章、院校、发表成果。
- 对其余章节一般只是略读、翻看、抽查，很多地方只会大概扫一眼。
- 也会顺手看一下图、表、公式、章节结构、结论部分和整体排版完成度，但不会做全文细查。
- 专家未必都是该细分方向的小同行，因此评分时请更多依据选题意义、研究问题是否清楚、技术路线是否成立、论文主线是否完整、论证是否大体自洽、结果是否足以支撑主要结论、论文完成度和整体规范性来判断。
- 非细分方向的小同行专家，通常不会因为无法精确判断最前沿细节就大幅压低分数；他们更看重整体完成度、论文是否像一篇成熟硕士论文、成果是否足以支撑论文分量。
- 只有在出现明显问题时，例如主线混乱、工作量明显不足、论文像多篇文章生硬拼接、结论明显大于证据、整体完成度较差，专家才更可能给出明显偏低的分数。
- 请不要引用只有通过逐页细查、全文检索、机器比对或仔细校对才能发现的细节问题作为主要评分依据。
- 评分理由应尽量来自真实盲审专家在有限时间内通常会注意到的内容，例如题目是否稳、摘要是否成熟、目录结构是否完整、第一章是否讲清问题、全文是否像一篇完整硕士论文、成果是否足够支撑论文分量、图表公式和排版是否总体规范。
- 5 位专家应独立评分，以各自评审习惯和论文实际情况为准，并符合毕业论文盲审的一般要求和通过率、优秀率分布。
- 只做打分判断，不要给修改建议，不要润色，不要改写论文内容。

- 专家1：方向相关度高，认真，标准较高
- 专家2：方向相关度较高，认真，打分中性
- 专家3：方向相关度中等，更看结构、规范、完成度，评分偏稳妥
- 专家4：方向相关度较低，但有成熟学术判断，更依赖整体印象和论文完成度
- 专家5：方向相关度中等，审稿较快，对整体成熟、成果较强的论文更容易给出较高评价
请依次给出专家1至专家5的评分结果，每位都按下面格式输出：
专家X
总分：
结论等级：A / B / 不通过
一句话总体评价：
主要评分依据（3条）：
最后再输出汇总：
5个分数：
平均分：
5个等级：
等级标准：
- A：90-100
- B：75-89
- 不通过：0-74

（提示词参考小🍠博主-个人主页kw66.github.io）

posted @ 2026-04-15 16:32 哦呦aholic 阅读(60) 评论(0) 收藏举报

刷新页面返回顶部

哦呦aholic

大模型盲审，看看哪家更接近

真实成绩已出，以下仅供参考娱乐，祝大家都顺利通过盲审！

Ouput

Input

公告