摘要: 暂时无法在飞书文档外展示此内容 Toy实验现象 问题引出 Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise 在长序列的情况下,clip的机制会加一步累积noise的方差 token-level的IS ratio方差大,不稳定 方法设计 Sequen 阅读全文
posted @ 2025-10-13 14:22 qlhh 阅读(35) 评论(0) 推荐(0)
摘要: GitHub地址: https://github.com/Alibaba-NLP/WebAgent# 共有5篇系列文章 为Agent(React架构)在web search(Deepsearch)提供BenchMark以及模型训练方法。 WebWalker 将原始instruct-answer的si 阅读全文
posted @ 2025-10-13 14:13 qlhh 阅读(227) 评论(0) 推荐(0)
摘要: WebResearcher 解决的问题 推理过少:ReAct架构容易导致上下文observation累积,进而导致reasoning变少 错误累积:错误的、不相关的observation累积在上下文窗口中,导致推理时间长、影响action 方法 为避免observation在上下文窗口的累积,则需要 阅读全文
posted @ 2025-10-13 14:03 qlhh 阅读(41) 评论(0) 推荐(0)