摘要:
理论上(浅显)分析Agent与传统llm、RAG的不同以及演进历程,根据Agent的目标解读AgentFounder论文的训练策略和数据集构建 Agent的目标以及对应的技术方案 Agent的推理目标 形式化的表达: 咱们首先来分析一下最开始大模型的功能,即仅根据\(\pi\)的内部知识和问题\(q 阅读全文
posted @ 2025-10-13 15:24
qlhh
阅读(4)
评论(0)
推荐(0)
摘要:
暂时无法在飞书文档外展示此内容 Toy实验现象 问题引出 Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise 在长序列的情况下,clip的机制会加一步累积noise的方差 token-level的IS ratio方差大,不稳定 方法设计 Sequen 阅读全文
posted @ 2025-10-13 14:22
qlhh
阅读(5)
评论(0)
推荐(0)
摘要:
GitHub地址: https://github.com/Alibaba-NLP/WebAgent# 共有5篇系列文章 为Agent(React架构)在web search(Deepsearch)提供BenchMark以及模型训练方法。 WebWalker 将原始instruct-answer的si 阅读全文
posted @ 2025-10-13 14:13
qlhh
阅读(105)
评论(0)
推荐(0)
摘要:
WebResearcher 解决的问题 推理过少:ReAct架构容易导致上下文observation累积,进而导致reasoning变少 错误累积:错误的、不相关的observation累积在上下文窗口中,导致推理时间长、影响action 方法 为避免observation在上下文窗口的累积,则需要 阅读全文
posted @ 2025-10-13 14:03
qlhh
阅读(4)
评论(0)
推荐(0)