测评数据集和大模型报告

参考 https://www.minimax.io/news/minimax-m25


以下是四个 AI 评测基准的对比总结:

基准 领域 数据来源 样本量 任务形式 核心指标 防数据污染策略 代表意义
SWE-Bench Verified 软件工程 真实 GitHub Issue + PR(Django、scikit-learn 等) 500 个(从 2,294 个人工筛选) 给定仓库和 Issue,生成代码补丁修复问题 Resolved Rate(解决率) 人工审核去噪 AI 能否像真正的工程师一样修复真实代码
HMMT 25 数学推理 哈佛-MIT 数学竞赛 2025 年真题 每年竞赛题量级 解答高难度数学竞赛题(代数、组合、几何、数论) 正确解题率 使用最新年份题目 AI 数学推理能力的天花板测试
LiveCodeBench 编程 / 算法 LeetCode、Codeforces、AtCoder 等平台新题 持续增长 代码生成、自我修复、执行预测等 Pass@1(一次通过率) 持续收集新发布的竞赛题 AI 编程能力的"活"基准,动态防泄露
ARC-AGI-V2 抽象推理 / 通用智能 François Chollet(Keras 作者)团队设计 数百道 根据示例推断网格变换规则并应用到新输入 正确率 每题规则独特,无法靠记忆 衡量 AI 是否接近 AGI 的试金石

一句话总结

  • SWE-Bench Verified → 能不能修 Bug 🛠️
  • HMMT 25 → 能不能做奥数 🧮
  • LiveCodeBench → 能不能刷题 💻
  • ARC-AGI-V2 → 能不能举一反三 🧠
posted @ 2026-02-13 14:38  bregman  阅读(23)  评论(0)    收藏  举报