我常看的大模型榜单
一些大模型榜单
https://llm-stats.com/ 前端很好看,数据可视化做得很好。Live Benchmarks,宣称Updated daily
https://livebench.ai/#/ Abacus.AI给出的leaderboard,更新及时
https://scale.com/leaderboard/humanitys_last_exam Scale AI给出的leaderboard
https://arcprize.org/leaderboard arcprize给出的leaderboard
https://aider.chat/docs/leaderboards/ Aider polyglot coding leaderboard
https://web.lmarena.ai/leaderboard WebDev Arena 数据更新及时
https://lmarena.ai/?leaderboard 之前是 lmsys.org 数据更新及时
https://beta.lmarena.ai/leaderboard lmarena弄了个新网站 数据更新及时
https://eqbench.com/ EQ-Bench,Emotional Intelligence Benchmarks for LLMs
个人推荐看上面几个,下面的也可以看一下。
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/ reproducible
https://artificialanalysis.ai/models/claude-3-7-sonnet 这个也能看一看。
常见pre-training和post-training数据集
https://modelscope.cn/datasets/ 这里面可能有
常见评测基准
这些评测基准覆盖了语言理解、推理、数学、代码生成、多语言支持等多个维度,全面评估大模型的能力。
-
GPQA (General Purpose Question Answering)
- 简介: GPQA 是一个通用问答数据集,用于评估模型在回答开放性问题时的能力。它通常包含多样化的主题和复杂的问题。
- 特点: 问题可能涉及多步推理或需要综合多个领域的知识。
-
MMLU (Massive Multitask Language Understanding)
- 简介: MMLU 是一个多任务语言理解基准,涵盖 57 个学科领域,包括人文、社会科学、自然科学等。
- 特点: 每个任务都是多项选择题形式,测试模型的知识广度和深度。
-
MMLU Pro
- 简介: MMLU Pro 是 MMLU 的升级版,增加了更难的任务和更专业的领域,进一步挑战模型的极限。
- 特点: 更注重专业知识和复杂推理能力。
-
DROP (Discrete Reasoning Over Paragraphs)
- 简介: DROP 是一个阅读理解数据集,要求模型进行离散推理(如计数、排序、比较等)来回答问题。
- 特点: 问题通常需要对文本中的数字或关系进行逻辑操作。
-
MLU-Pro
- 简介: MLU-Pro 是一个多语言语言理解基准,专注于评估模型在多种语言上的表现。
- 特点: 包含跨语言任务,测试模型的语言迁移能力和多语言理解能力。
-
GPQA Diamond
- 简介: GPQA Diamond 是 GPQA 的扩展版本,包含更高难度的问题,尤其是那些需要专业知识和复杂推理的问题。
- 特点: 更强调模型在专业领域的表现。
-
- 简介: 这是一个极端难度的考试型基准,旨在测试模型是否能够达到人类专家水平。
- 特点: 问题设计极具挑战性,通常涉及跨学科知识和深度推理。
-
LiveCodeBench
- 简介: LiveCodeBench 是一个实时代码生成和调试的评测基准,用于评估模型在编程任务中的表现。
- 特点: 强调代码的正确性、效率和可读性。
-
SciCode
- 简介: SciCode 是一个科学领域的代码生成基准,测试模型在科学计算和实验模拟中的代码生成能力。
- 特点: 涉及科学公式、算法实现和实验数据分析。
-
AIME (American Invitational Mathematics Examination)
- 简介: AIME 是一个数学竞赛题目集合,用于评估模型在解决高难度数学问题时的能力。
- 特点: 题目通常需要复杂的数学推理和创造性解法。
-
SuperGLUE
- 简介: SuperGLUE 是 GLUE 的升级版,包含更难的自然语言理解任务,如文本蕴含、共指消解等。
- 特点: 测试模型在复杂语言任务中的表现。
-
C-Eval
- 简介: C-Eval 是一个中文多学科考试基准,涵盖 50 多个学科领域。
- 特点: 测试模型在中文环境下的知识广度和深度。
-
CMMLU (Chinese Massive Multitask Language Understanding)
- 简介: CMMLU 是 MMLU 的中文版本,测试模型在中文多学科任务中的表现。
- 特点: 强调中文语言理解和专业知识。
-
MATH-500
- 简介: MATH-500 是一个包含 500 道高难度数学问题的数据集,覆盖代数、几何、微积分等领域。
- 特点: 测试模型在数学推理和问题解决上的能力。
-
BIG-Bench (Beyond the Imitation Game Benchmark)
- 简介: BIG-Bench 是一个大规模的多任务基准,包含超过 200 个任务,涵盖了语言理解、推理、数学、代码生成等多个领域。
- 特点: 强调模型的泛化能力和复杂任务处理能力。
-
BBH (Big-Bench Hard)
- 简介: BBH 是 BIG-Bench 中最难的任务子集,专门用于测试模型的极限能力。
- 特点: 包含高度复杂和具有挑战性的任务。
-
HumanEval
- 简介: HumanEval 是一个代码生成基准,测试模型在编写功能正确代码时的能力。
- 特点: 强调代码的逻辑性和功能性。
-
Cybench
- 简介: CyBench是一个用于评估语言模型在网络安全领域能力和风险的基准框架,由斯坦福大学团队提出。
- 特点: 评估模型在网络安全领域的能力。
-
- 简介: UQ(Unsolved Questions)是一个由 500 道未解答的Stack Exchang问题组成的测试集,涵盖计算机理论、数学、科幻、历史等主题,用于考察模型在推理、事实准确性以及浏览等方面的能力。
- 特点: UQ 在设计上兼具难度大与贴近真实两大特点:这些问题大多是人类遇到但尚未解决的难题,因此攻克它们可直接产生现实价值。
-
- 简介: GDPval直接来源于现实工作中的任务,覆盖了 9 大行业、44 种职业、每年共计 3 万亿美元经济价值。
- 特点: GDPval不仅任务内容贴近现实、形式多样,还具备极高的专业性和代表性。与传统评估相比,GDPval 并非简单的文本提示任务。它要求模型处理完整的参考材料与工作背景,输出形式也不仅限于文字,还包括文档、PPT、图表、电子表格,甚至多媒体内容。
-
- 简介: 软件工程 Bug 修复任务
- 特点: 专注于软件开发中的实际问题修复,包含真实代码库中的 Bug 修复任务。数据集涵盖多种编程语言和复杂问题,要求模型理解代码上下文、定位错误并生成修复代码,具有较高的技术挑战性。
-
- 简介: 机器学习工程任务,如模型训练与分析。包含75场Kaggle竞赛。
- 特点: 提供多样化的机器学习任务,覆盖数据预处理、模型选择与优化、特征工程等内容。任务来源于真实的Kaggle竞赛环境,强调实用性与竞争力,适合评估模型在机器学习工作流中的综合能力。
-
- 简介: 科研论文的逻辑推理与评议
- 特点: 专注于学术研究场景,要求模型理解复杂论文内容,进行逻辑推理、批判性分析和总结。任务包括评估论文质量、识别研究漏洞以及生成同行评审意见,强调深度理解与专业性。
-
- 简介: 源于真实交易的自由职业软件开发任务
- 特点: 基于真实自由职业平台的软件开发任务,涵盖需求分析、代码编写、测试与优化等环节。任务强调实际项目中的沟通与协作能力,模拟真实开发场景,具有较高的实践性与复杂性。