2025 年 4月 19 日随笔档案 - deephub

2025年4月19日

摘要： ReSearch是一种创新性框架，通过强化学习技术训练大语言模型执行"推理搜索"，无需依赖推理步骤的监督数据。该方法将搜索操作视为推理链的有机组成部分，其中搜索的时机与方式由基于文本的推理过程决定，而搜索结果进一步引导后续推理。研究分析表明，ReSearch在强化学习训练过程中自然地形成了高级推理能阅读全文

posted @ 2025-04-19 14:44 deephub 阅读(17) 评论(0) 推荐(0)

deephub

overfit深度学习

公告