2025 年 10月 13 日随笔档案 - qlhh

2025年10月13日

摘要：暂时无法在飞书文档外展示此内容 Toy实验现象问题引出 Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise 在长序列的情况下，clip的机制会加一步累积noise的方差 token-level的IS ratio方差大，不稳定方法设计 Sequen 阅读全文

posted @ 2025-10-13 14:22 qlhh 阅读(39) 评论(0) 推荐(0)

Qwen WebAgent 系列

摘要： GitHub地址： https://github.com/Alibaba-NLP/WebAgent# 共有5篇系列文章为Agent（React架构）在web search（Deepsearch）提供BenchMark以及模型训练方法。 WebWalker 将原始instruct-answer的si 阅读全文

posted @ 2025-10-13 14:13 qlhh 阅读(242) 评论(0) 推荐(0)

Qwen DeepResearch 系列

摘要： WebResearcher 解决的问题推理过少：ReAct架构容易导致上下文observation累积，进而导致reasoning变少错误累积：错误的、不相关的observation累积在上下文窗口中，导致推理时间长、影响action 方法为避免observation在上下文窗口的累积，则需要阅读全文

posted @ 2025-10-13 14:03 qlhh 阅读(52) 评论(0) 推荐(0)

qlhh

公告