测评数据集和大模型报告

参考 https://www.minimax.io/news/minimax-m25

以下是四个 AI 评测基准的对比总结：

基准	领域	数据来源	样本量	任务形式	核心指标	防数据污染策略	代表意义
SWE-Bench Verified	软件工程	真实 GitHub Issue + PR（Django、scikit-learn 等）	500 个（从 2,294 个人工筛选）	给定仓库和 Issue，生成代码补丁修复问题	Resolved Rate（解决率）	人工审核去噪	AI 能否像真正的工程师一样修复真实代码
HMMT 25	数学推理	哈佛-MIT 数学竞赛 2025 年真题	每年竞赛题量级	解答高难度数学竞赛题（代数、组合、几何、数论）	正确解题率	使用最新年份题目	AI 数学推理能力的天花板测试
LiveCodeBench	编程 / 算法	LeetCode、Codeforces、AtCoder 等平台新题	持续增长	代码生成、自我修复、执行预测等	Pass@1（一次通过率）	持续收集新发布的竞赛题	AI 编程能力的"活"基准，动态防泄露
ARC-AGI-V2	抽象推理 / 通用智能	François Chollet（Keras 作者）团队设计	数百道	根据示例推断网格变换规则并应用到新输入	正确率	每题规则独特，无法靠记忆	衡量 AI 是否接近 AGI 的试金石

一句话总结：

SWE-Bench Verified → 能不能修 Bug 🛠️
HMMT 25 → 能不能做奥数 🧮
LiveCodeBench → 能不能刷题 💻
ARC-AGI-V2 → 能不能举一反三 🧠

posted @ 2026-02-13 14:38 bregman 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部