论文解读-你的LLM能够稳定推理吗?
一、 简要介绍
大型语言模型(LLMs)的迅速发展在复杂推理任务中取得了显著进展。然而,基准测试与实际应用之间仍存在显著差距。论文认为这一差距主要源于当前的评估协议和指标未能全面反映LLM的能力,特别是在复杂推理任务中,准确性和一致性至关重要。本研究做出了两项重要贡献:首先,论文引入了G-Pass@k这一新的评估指标,该指标通过多次采样尝试连续评估模型性能,不仅衡量了模型的最高性能潜力,还评估了其稳定性。其次,论文推出了LiveMathBench,这是一个动态基准测试,包含了一系列具有挑战性的当代数学问题,旨在减少评估过程中的数据泄露风险。通过使用G-Pass@k对最先进的大型语言模型(LLM)进行广泛的实验,并结合LiveMathBench,论文提供了关于这些模型最大能力和操作一致性的全面见解。研究发现,LLM“现实”推理能力方面有很大的提升空间,这表明需要更加稳健的评估方法。该基准测试和详细结果可在以下链接获取:https://github.com/open-compass/GPassK。
二、研究背景
自大型语言模型(LLMs)问世以来,复杂的推理能力,尤其是数学问题解决方面的能力,被视为LLM能力的巅峰。许多模型在数学任务上展现了卓越的表现,从通用模型如GPT-4o,以及LLaMA系列,到专门模型如DeepSeek-Math和Qwen-Math,这些模型在处理复杂和高难度的数学推理任务上表现出色。最近,长思维链(Long-CoT)模型如OpenAI-o1、QwQ和DeepSeek-R1-Lite-Preview进一步提升了数学问题解决的水平。
在实际应用中,大型语言模型(LLM)通常通过预设的解码参数(如温度、top-k、top-p和重复惩罚)进行采样,以保持响应的多样性。用户通常会重新生成响应或启动新的会话,直到找到对特定问题满意的答案。然而,传统的LLM评估指标,如贪婪准确率、Pass@K、Best-of-N(BoN)和多数投票,在衡量实际性能方面存在显著局限,尤其是在长期一致性方面。尽管这些指标能够有效捕捉即时准确率或多个样本中的峰值表现,但它们在解决输出稳定性问题上显得力不从心。这种不稳定性对需要可靠和可预测结果的应用构成了重大挑战,因此迫切需要能够平衡响应多样性和性能一致性的评估指标。
为应对这些挑战,论文推出了G-Pass@k,这是一种新颖的评估指标,能够同时评估模型的问题解决能力和性能的一致性。G-Pass@k的核心在于在不同的正确性阈值下评估模型性能,从而提供对模型在不同严格度下行为的细致理解。通过结合稳定性和潜力的评估,G-Pass@k为大型语言模型(LLM)的能力提供了全面的评估,尤其适用于复杂的推理任务。为了全面展示G-Pass@k的实际应用价值,论文还推出了LiveMathBench,这是一个具有挑战性的双语数学基准测试。这个动态评估框架不断更新,融入最新的数学问题,确保与模型能力和数学讨论的最新进展保持同步。
论文使用G-Pass@k进行了全面的实验,评估了LiveMathBench上的多种模型,包括通用语言模型(LLMs)、数学专业模型以及以逐步推理能力著称的Chain-of-Thought(CoT)增强变体。通过系统地比较传统指标(如贪婪准确率和Pass@K)与G-Pass@k,论文的分析揭示了模型性能的独特见解,这些见解可能被传统评估方法所忽视。如图1所示,论文的分析表明,传统评估指标在评估输出稳定性方面存在显著局限。论文观察到,随着G-Pass@k阈值的提高,所有模型的性能显著下降,这一现象在两个已建立的开源数据集(MATH和AIME)以及论文新开发的LiveMathBench中均有所体现。通过详细分析G-Pass@k指标并对比不同模型架构,论文揭示了在不同难度和稳定性要求下,o1类语言模型与标准语言模型之间存在显著的行为差异。这些发现强调了传统评估方法的局限性,并表明在复杂推理任务中,需要采用稳定性感知的度量来准确评估模型的能力。
从新度量标准和LiveMathBench得出的关键观察包括:
- 推理的不稳定性:无论是专有模型还是开源模型,在处理具有挑战性的推理任务时都表现出显著的不稳定性。性能下降超过50%的情况在许多情况下出现,最糟糕的情况下性能下降高达90%。
- 模型规模增加的有限好处:仅仅扩大模型规模并不一定能提升稳定的推理能力。预期的性能和稳定性提升并不总是能够实现。
- 潜力与稳定性之间的差异:模型的潜在能力(通过
测量)与实际稳定性(
反映)之间存在显著差距。这种差异凸显了进一步研究的必要性,以开发出能够更好地利用这些模型理论潜力的方法,应用于实际且稳定的场景中。
三、相关研究
数学推理基准测试针对大型语言模型(LLMs)。为了评估大型语言模型在A数学推理方面的能力,已经开发了专门的基准测试,这些测试关注LLM在数学能力的不同方面。GSM8K提供了一个包含8500个基础数学应用题的数据集,分为训练集和测试集,要求模型进行多步骤推理并提供详细的解题路径。MATH包含12500个来自高中数学竞赛的问题,挑战LLM处理微积分和代数等高级主题,并提供逐步解答以促进连贯的训练。MMLU评估了57个学科的预训练语言模型,包括STEM领域,其中数学部分旨在评估数学知识和问题解决能力。FineMath通过一个包含核心小学概念的数据集来评估细粒度数学推理能力,该数据集被分为17种数学词汇问题,经过人工标注,并按难度分类。GAOKAOBench包含2811个中文题目,以零样本设置的形式考察大型语言模型,类似于中国的高考形式,涵盖从客观到主观的各种题型。MathBench是一个分层次的基准测试,评估理论和应用数学能力,包含3,709道题目,从基础算术到大学水平,覆盖五个教育阶段。Omni-Math专注于奥林匹克级别的数学推理,包含4428道竞赛级别的题目,分为超过33个子领域和10个难度级别,从入门级到专业国际竞赛。
LLM推理的稳定性。大型语言模型(LLMs)在推理任务中表现出色,包括问题回答、编程和数学问题解决。尽管这些模型表现出色,但其输出的稳定性却是一个重大挑战,即同一输入可能因随机采样或幻觉而产生不同的输出,这影响了模型的可靠性和可预测性。Atil等提出了两个新指标:TARr@N(N次运行的总一致性率)和TARa@N(解析答案的总一致性率)。然而,TARr@N和TARa@N仅关注输出的一致性,论文的研究引入了一个新的评估指标G-Pass@k,用于评估LLMs的数学推理能力。该指标不仅考虑输出的一致性,还强调正确性,旨在全面评估模型的真实推理能力。
四、用于LLM推理的通用标准
在本节中,论文首先回顾经典的评估指标Pass@k,然后介绍论文提出的G-Pass@k指标。最后,论文将概述这两个指标之间的主要区别。
4.1 前提:Pass@k
Pass@k最初是为了评估模型生成的代码的功能正确性而提出的。随着大型语言模型(LLMs)在各种推理任务中的广泛应用,Pass@k指标的重要性日益增加。它有效地衡量了模型解决复杂问题的潜在能力。Pass@k表示在每次尝试中至少获得一个正确答案的概率,具体公式如下:
在本节中,论文首先回顾经典的评估指标Pass@k,然后介绍论文提出的G-Pass@k指标。最后,论文将概述这两个指标之间的主要区别。3.1前提:Pass@k Pass@k最初是为了评估模型生成的代码的功能正确性而提出的(Kulal等,2019;Chen等,2021)。随着大型语言模型(LLMs)在各种推理任务中的广泛应用(Rajani等,2019;Imani等,2023;Giadikiaroglou等,2024),Pass@k指标的重要性日益增加(Luo等,2023;Yu等,2024)。它有效地衡量了模型解决复杂问题的潜在能力。Pass@k表示在每次尝试中至少获得一个正确答案的概率,具体公式如下:
4.2 通用度量:G-Pass@k
Pass@k能够反映模型的性能潜力,但未能体现模型推理性能的稳定性。为了全面评估模型的潜力与稳定性,论文提出了一种新的通用度量——G-Pass@k。简单来说,G-Pass@k通过评估模型在k代中生成正确解决方案的概率,来衡量模型在多代中生成正确解决方案的一致性。
Pass@k与 的定义。设p∗表示模型正确解答问题的概率。由于每一代都是独立同分布(i.i.d.),因此获得m个正确答案的概率遵循二项分布:
由于p∗通常无法直接获取,论文利用超几何分布来近似二项分布:
因此,G-Pass@k可定义为:
其中,n表示每个问题的总代数,c则表示能够产生正确解的代数。鉴于方程(4)的严格性,论文借鉴了物体检测领域常用的平均精度(mAP)指标,引入了一个阈值 ,从而定义了
:
其中, 表示大于或等于
的最小整数。从概念上讲,当
时,允许在k生成中存在最多
个错误解。论文利用超几何分布来近似二项分布,当n足够大时,这种方法能提供良好的估计。关于这一估计方法的更多讨论,请参见附录A.2。
Pass@k是 的一个特例。从以下定理可以看出,Pass@k本质上就是
的一个特例。
定理4.1,当τ趋近于0时,Pass@k成为G-Pass@k的特例,其形式描述如下:
mG-Pass@k的定义。当阈值τ较低时, 更倾向于评估模型的潜在性能。相反,当τ值较高时,
则评估模型的稳定性或对问题掌握的程度。因此,
有助于持续观察模型的潜在性能和稳定性。论文进一步定义mG-Pass@k为:直观来看,mG-Pass@k提供了
曲线下面积的插值估计,作为综合指标,它整合了所有
值(其中
)。对于最优且稳定的模型,mG-Pass@k值应接近1。
4.3 Pass@k与G-Pass@k的对比
为了更直观地比较Pass@k和G-Pass@k,图2展示了当n = 80时,不同c值下的度量值。图中显示,虽然Pass@k能够提供模型能力的一些见解,但仅依赖Pass@k可能会高估模型的实际表现。例如,如图2左上角所示,即使模型在80次运行中只有8次正确解答了问题,Pass@k仍能产生显著的高分(当c≥16时,Pass@k>0.8)。此外,一旦c超过某个阈值,区分Pass@k的差异就变得非常困难。
相比之下,G-Pass@k提供了更精确的模型性能评估,如图2所示。在不同的c值下,G-Pass@k显示出明显的差异。此外,通过调整阈值,G-Pass@k可以突出不同的方面:较低的阈值更侧重于模型的潜力,而较高的阈值则强调模型的稳定性和对问题的掌握。
总之,G-Pass@k不仅比Pass@k提供了更详细的性能评估,而且通过定制的阈值配置,有效地平衡了模型潜力和稳定性的考量。
五、性能与分析
5.1 LiveMathBench
为了有效分析大型语言模型的G-Pass@k性能,论文构建了一个新的、具有挑战性的基准测试——LiveMathBench。该基准测试将持续更新,加入新题目,以持续评估模型在数学推理方面的表现。
5.1.1 基准构建
LiveMathBench是专门为包含来自不同数学竞赛的四个具有挑战性的跨领域问题集而设计的,旨在避免现有大型语言模型(LLM)和公开数学基准中的数据污染问题。LiveMathBench(202412版)整合了中国国家数学奥林匹克竞赛(CNMO)、中国高考(CCEE)、美国数学竞赛(AMC)和威廉·洛厄尔·普特南数学竞赛(WLPMC)的最新题目。这些数据集涵盖了不同难度和语言变体,与公开数据集的重叠度低,确保了对LLM在各种数学场景中泛化能力的全面评估。更多关于LiveMathBench的信息,请参见附录A.1。
5.1.2 基准统计
表1展示了LiveMathBench的全面统计结果。为了增强基准测试的多样性并评估大型语言模型在多语言环境下的性能,问题的英文和中文版本均被纳入其中。
5.2 设置
5.2.1 LLMs
论文评估了多种因其强大的数学推理能力而被认可的大型语言模型(LLM),包括InternLM2-Math-Plus-20B、DeepSeek-Math-7b-RL、DeepSeek-V2.5-1210、Llama-3.1-8B-Instruct、Llama-3.1-70B-Instruct、Llama-3.3-70B-Instruct、NuminaMath- 72B-CoT、Mistral-Large-Instruct-2411、Qwen2.5-7BInstruct、Qwen2.5-Math-7B-Instruct、Qwen2.5-32BInstruct、Qwen2.5-72B-Instruct、Qwen2.5-Math- 72B-Instruct、Claude-3.5-Sonnet、Gemini-1.5- Pro和GPT-4o-2024-11-20。此外,论文还评估了几种o1类型的LLM,如QwQ-32B-Preview、Skywork-o1-Open-Llama- 3.1-8B和OpenAI o1-mini。
5.2.2 实施细节
在所有实验中,论文将代数n设定为16×3 = 48,并报告了贪婪准确率、 和G-Pass@k值,其中 k∈{4,8,16},
∈{0.25,0.5,0.75,1.0}。对于开源模型的采样参数,论文设定了温度为1.0,top-p为1.01,top-k为40,重复惩罚为1.0。对于开源模型,最大令牌数设置为8,非o1 LLMs为192,o1类似LLMs为32768。对于闭源模型,由于推理成本的限制,论文设定了最大完成令牌数为4096,非o1 LLMs为4096,OpenAI o1-mini为16384。论文使用OpenCompass平台评估所有LLMs。
由于模型在解决复杂数学问题时产生的最终答案形式多样,论文采用了Qwen-2.5-72B-Instruct来判断测试模型生成的内容是否与标准答案一致。在论文的评估流程中,论文提供了原始问题、参考答案和模型生成的答案,通过Qwen-2.5-72B-Instruct来验证候选解决方案是否与参考答案相符。具体的评估过程详见附录A.4。
5.2.3 其他公共基准测试
论文还纳入了广泛使用的公共基准测试MATH500和AIME2024,这两个测试旨在严格评估LLMs在数学推理能力上的表现。
MATH500-L5是MATH数据集的一个精选子集,该数据集由Hendrycks等(2021b)整理,旨在通过复杂的数学问题来挑战LLMs。它涵盖了代数、几何、概率论和数论等多个领域的高级问题,全面评估模型的数学推理能力。论文选择了所有难度为5的题目,形成了包含134道题目的MATH500-L5。
AIME2024-45。为了评估美国数学邀请赛(AIME)级别的语言模型(LLM)性能,AIME题集设计了一系列复杂的任务,旨在测试逻辑思维、抽象推理和精确计算能力。这一资源旨在拓展LLM解决复杂数学问题的能力。论文整合了2024年美国数学邀请赛的第一部分和第二部分,共45道题目,命名为AIME2024-45。
5.3 LiveMathBench与公共基准性能
表2展示了所有模型在LiveMathBench上的表现,而表3则展示了它们在MATH500-L5和AIME2024-45测试中的表现。通过这些结果,论文得出了以下观察结论。

1) 竞赛级别的问题对当前的大型语言模型(LLM)来说仍然是一个巨大的挑战。论文的分析显示,像LiveMathBench和AIME2024-45这样的竞赛级别问题,仍然给所有被评估的模型带来了显著的挑战,即使这些模型处于当前研究的最前沿。例如,尽管Gemini-1.5-Pro-Latest是表现最佳的通用模型,但在LiveMathBench上的贪婪解码准确率仅为49.2%。同样,表现最佳的数学推理模型Qwen2.5-Math-72B-Instruct,其准确率达到了50.4%,虽然略高,但仍未达到完美。论文评估的大多数LLM在贪婪解码上的准确率介于10%到45%之间。值得注意的是,几个高性能模型是接近源代码的,如GPT-4o的准确率为39.9%,Claude-3.5-Sonnet的准确率为37.0%。此外,在另一个具有挑战性的基准测试AIME2024-45上,表现最佳的非o1类LLM仅能达到约20%的贪婪解码准确率,而大多数LLM的表现则处于较低水平。这些结果突显了在最新的复杂数学问题上实现高精度的持续挑战。尽管O1类模型通过长链思维和反射机制,在复杂任务上表现显著,但在LiveMathBench测试中仍面临重大挑战。例如,表现最佳的OpenAI o1-mini模型得分66.51%,而最强大的开源O1类模型QwQ-32B-Preview在LiveMathBench上的得分仅为64.3%。尽管有所进步,但当前模型的表现与人类水平的差距依然明显。
2) 理性能力仍需适当评估。尽管大多数模型在贪婪准确率和Pass@16下表现出色,但使用G-Pass@k评估时,性能显著下降。具体来说,当τ设置为1.0,即模型必须在所有16次尝试中都提供准确响应时,几乎所有模型的表现都大幅下滑。以LiveMathBench为例,Llama-3.1-8B-Instruct模型的准确率从18.1%(贪婪)骤降至0.8%( ),下降了95.7%。即使是NuminaMath-72B-CoT这样的大型模型,在
下也从34.5%下降到3.7%,下降了89.3%。在测试的约20个模型中,平均性能下降了60%。值得注意的是,即使是性能最稳定的模型OpenAI o1-mini,其准确率也从66.5%下降到42.0%,下降了36.9%。
即使将τ调整到0.5,即只需一半的样本正确即可通过,通用语言模型、数学推理语言模型和O1类推理语言模型的平均性能分别下降了14.0%、22.5%和4.8%。这表明,在挑战性条件下,大多数模型难以在多个样本中保持推理能力的一致性,无论标准是严格还是宽松。这些发现强调了对模型推理能力进行更严格评估的必要性,特别是在需要在多个实例中保持一致性和可靠性的场景中。当前的评估指标,通常依赖于单次贪婪解码,可能无法完全反映这些模型在实际应用中的真实稳健性和稳定性。
3) 增加模型规模可能不会显著提升模型的鲁棒性。通过对比同一系列中的模型,如Qwen2.5-32B-Instruct和Qwen2.5-72B-Instruct,尽管模型规模相差超过两倍,但它们在不同指标和数据集上的表现依然相似。例如,在最新的LiveMathBench数据集和现有的开源数据集上,这两个模型在Greedy Accuracy和mG-Pass@k之间的差异不超过两个百分点。此外,在更大的Mistral-LargeInstruct-2411(123B)模型中,尽管规模进一步扩大,但性能和稳定性实际上不如Qwen2.5-72B-Instruct。这表明,对于某些任务,尤其是那些需要深度理解和逻辑推理的任务,仅仅增加参数数量可能无法带来预期的性能或稳定性提升。这可能是因为这些任务不仅依赖于模型的记忆容量和模式识别能力,还需要强大的推理能力和上下文理解能力。
4) 理论性能潜力与实际稳定性之间存在显著差距。在评估模型性能时,论文发现理论上限( )、实际性能(Greedy Accuracy)以及多个样本的稳定性(
)之间存在明显差异。如图1所示,尽管模型理论上具有很高的性能潜力,但在实际应用中,其性能未能达到这一理想水平,尤其是在输出稳定性方面。一些模型在单次贪婪解码中表现出高精度,显示出处理特定任务的潜力,但它们无法在多个样本中保持一致的高精度,远未达到最佳性能。这突显了当前模型在推理稳定性和一致性上的不足,这些不足在训练和评估过程中往往被忽视。模型的单次推理性能可能受到输入数据变化、初始化状态或随机采样等因素的影响,导致不同实例间结果不一致。在需要高度可靠性和一致性的应用中,这种不一致性是一个重大问题,强调了确保模型输出稳定并接近最佳性能的重要性。
5.4 进一步分析
5.4.1 性能随k的变化
图3展示了G-Pass@4、G-Pass@8和G-Pass@16的选定模型性能结果。对于G-Pass@4,Deepseek-Math-7b-RL的性能随着τ值的增加显著下降,从约40%下降到20%。Qwen-2.5-Math-72B-Instruct和QwQ-32BPreview的性能也有所下降,但保持较高水平,分别从约65%和80%下降到约50%和70%。对于G-Pass@8,趋势类似,Deepseek-Math-7b-RL的性能从40%下降到20%,而Qwen-2.5-Math-72B-Instruct和QwQ-32B-Preview的性能则从60%和80%下降到约45%和70%。对于G-Pass@8,趋势相似,Deepseek-Math-7b-RL从40%急剧下降到20%,而Qwen-2.5-Math- 72B-Instruct和QwQ-32B-Preview则从60%和80%开始,分别下降到约45%和70%。对于G-Pass@16,Deepseek-Math-7b-RL从30%下降到10%,而Qwen-2.5-Math- 72B-Instruct和QwQ-32B-Preview则从60%和80%开始,分别下降到约35%和60%。总体而言,G-Pass@k在不同k值下能够保持一致的评估结果,这表明k值作为评估指标具有较强的鲁棒性。此外,对于性能强大的高级推理模型,较大的k值能更好地体现差异。
5.4.2 性能随n的变化
如前所述,尝试次数n对估计的准确性至关重要。论文选择了两个模型:DeepSeek-Math-7b-RL和NuminaMath-72B-CoT,分别在n = {16}×{1,2,3,5,8,15} = {16,32,48,128,240}的条件下进行了实验,并报告了G-Pass@16τ的结果。如图4所示,当n较小时,估计偏差较大,两个模型的G-Pass@16τ值波动显著。相反,随着n的增加,G-Pass@16τ值趋于稳定,表明性能更加一致和可靠。具体而言,DeepSeek-Math-7b-RL模型在n≥48时表现稳定,约为20%;而NuminaMath-72B-CoT模型在n≥48时也趋于稳定,约为30%。因此,论文建议在计算G-Pass@k时至少生成3k,以确保估计的准确性。
5.4.3 难度问题的影响
论文还考察了不同难度问题对模型性能的影响。论文分析了LiveMathBench数据库中的CCEE和WLPMC数据集。CCEE是一项主要涉及高中基础数学知识的大学入学考试,而WLPMC则是一项著名的大学数学竞赛,难度显著更高。表4显示了实验结果。研究发现表明:
1)现有的先进模型能够正确处理复杂的数学问题。如表4所示,大多数模型在CCEE(计算机竞赛)这一常规难度的测试中均取得了较高的Pass@16成绩。此外,Deepseek-V2.5和QwQ-32B-Preview模型在更具挑战性的竞赛数据集上也展现了优异的Pass@16表现。
2)模型在将这种能力应用于挑战性问题时遇到更多困难。与CCEE相比,WLPMC的表现急剧下降,这表明模型在处理这类问题时面临更高的难度。例如,在WLPMC上,Deepseek-V2.5的贪婪准确率相比其Pass@16表现下降了86%,而QwQ-32B-Preview的贪婪准确率相比其Pass@16表现下降了69%。相比之下,在CCEE上,Deepseek-V2.5的贪婪准确率仅下降了24%,而QwQ-32B-Preview的贪婪准确率仅下降了15%。
根据这些观察,论文推测模型倾向于从训练数据中学习表面模式,这在Pass@k指标的显著提升中得到了体现。然而,这种提升并不一定意味着模型实际推理能力的增强。因此,应更加重视评估模型的贪婪性能和推理稳定性。
5.4.4 数据污染或过拟合是否影响稳定性?
数据污染是指测试数据混入训练数据中,也称为数据泄露。为了研究不同程度的数据污染或过拟合对G-Pass@k指标的影响,论文使用Qwen2.5-7B模型在MATH500-L5数据集上进行了一系列实验。
训练过程始于从Numina-Math-CoT语料库中随机选取的200,000条指令,作为未受污染的训练集。随后,论文逐步引入了0、6、8、10和16轮的数据污染,其中第0轮表示没有污染,即仅使用原始NuminaMath数据进行训练。模型在这五种条件下的表现效果如图5所示。
尽管随着污染轮次的增加,贪婪得分有所提升,但通过G-Pass@k指标衡量的稳定性并未相应增强。具体来说,图5左部分显示,在第6、8、10和16轮污染中,实际性能(贪婪准确率)与稳定性(G-Pass@k@16τ=1.0)之间的差距分别为22、20、18和26。相比之下,未受污染的模型这一差距仅为5,这表明在污染模型中,性能与稳定性之间的差异超过三倍。此外,图5右部分显示,随着污染轮次的增加,斜率变得越来越陡峭,表明模型稳定性每增加一轮污染就会恶化。这种现象在某些下游训练场景中尤为显著,例如数据稀缺的情况下,过拟合变得必要。在这种情况下,虽然贪婪准确率可能提高,但往往以牺牲稳定性为代价。值得注意的是,上述性能与稳定性之间的差距,并不一定随着过拟合程度的增加而成比例缩小。
这表明,尽管数据污染或过拟合可以提升模型在已见数据上的表现,但当面对未知或多样化的输入时,可能会显著削弱模型的稳健性和可靠性。因此,实践者在将受污染的数据引入训练过程时应格外谨慎,尤其是在模型稳定性至关重要的情况下。
六、结论
在这项研究中,论文引入了G-Pass@k这一新的评估指标,该指标能够评估大型语言模型(LLM)在不同正确性阈值下的问题解决能力和性能一致性。为了展示G-Pass@k的实际应用价值,论文推出了LiveMathBench,这是一个动态的多语言数学基准测试平台,持续更新当代挑战性问题,确保与模型能力和数学讨论的最新进展保持同步。通过在LiveMathBench上使用G-Pass@k进行详细评估,论文发现:
1)尽管大多数模型在Pass@K和贪婪准确率方面表现出显著潜力,但在采样过程中仍存在不稳定性;
2)增加模型规模或过度拟合数据集可以提高贪婪准确率,但未必能显著提升稳定性。论文希望G-Pass@k和LiveMathBench能成为研究社区的重要工具,帮助深入理解语言模型的发展和评估方法。
浙公网安备 33010602011771号