摘要: 过程奖励模型(PRMs)作为验证机制在提升大型语言模型(LLMs)性能方面展现出显著潜力。而当前PRMs框架面临三个核心技术挑战:过程监督和泛化能力受限、未充分利用LLM生成能力而仅依赖标量值预测,以及在测试时计算无法有效扩展。 针对上述局限,这篇论文提出了GenPRM,一种创新性的生成式过程奖励模 阅读全文
posted @ 2025-04-27 10:21 deephub 阅读(35) 评论(0) 推荐(0)