NeurIPS 2025!采样成本降 50%+ 准确率提升!南大等团队的RPC方法刷新 LLM 推理上限

NeurIPS 2025!采样成本降 50%+ 准确率提升!南大等团队的RPC方法刷新 LLM 推理上限

论文标题:A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

作者团队:南京大学、瑞士苏黎世联邦理工学院

发布时间:2025年10月17日

👉一键直达论文

[👉Lab4AI大模型实验室论文阅读](https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=lab4ai_jssq_bky
_atheo&id=043ef27594584637836ecff34006b092)

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心贡献

  • 理论框架:首次提出用于分析LLM推理中采样式测试时缩放方法的理论框架,将推理误差分解为估计误差和模型误差。
  • 方法创新:提出RPC方法,融合自洽性和内部概率的优势,通过Perplexity Consistency和Reasoning Pruning组件解决现有方法的局限性。
  • 实证验证:在多个基准数据集上验证RPC的有效性,显著降低采样成本并提升推理性能。

⭐研究方法

  • 误差分解理论:将推理误差分解为估计误差(与采样规模和置信度估计策略相关)和模型误差(由LLM固有推理能力决定)。
  • 现有方法分析:自洽性估计误差收敛慢(线性),困惑度模型误差大且估计误差优势在低概率路径下退化。
  • RPC方法设计:
    • Perplexity Consistency:将LLM内部概率融入自洽性框架,以指数级速率降低估计误差。
    • Reasoning Pruning:通过混合威布尔分布建模概率分布,自动过滤低概率路径,防止估计误差退化。

⭐研究结果

  • 效率提升:RPC在达到与自洽性相同性能时,所需采样数量减少50%以上。
  • 性能优化:在7个基准数据集上,RPC平均准确率优于基线方法(如数学推理任务提升1.29%)。
  • 可靠性增强:RPC的置信度估计更接近真实置信度(预期校准误差更低)。
  • 泛化性验证:在代码生成(如HumanEval)和逻辑推理(如LogiQA)任务中均表现优异。
posted @ 2025-12-02 14:30  Lab4AI大模型实验室  阅读(0)  评论(0)    收藏  举报