2025 年 3月 21 日随笔档案 - deephub

2025年3月21日

摘要：这个研究提出了一种新型强化学习(RL)框架SEARCH-R1，该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。不同于传统的检索增强生成(RAG)或工具使用方法，SEARCH-R1通过强化学习训练LLM自主生成查询语句，并优化其基于搜索引擎结果的推理过程。该模型的核心创新在于完阅读全文

posted @ 2025-03-21 10:15 deephub 阅读(150) 评论(0) 推荐(0)

deephub

overfit深度学习

公告