摘要: GitHub: https://github.com/PeterGriffinJin/Search-R1 论文: link1, link2 Motivation 使用seach engine给reasoning LLM赋能 Method 在PPO的基础上,基于给定的Search Egine \(R\ 阅读全文
posted @ 2025-10-21 12:28 qlhh 阅读(157) 评论(0) 推荐(0)
摘要: 首先看一下KL的基础公式 KL KL1: 大模型的KL一般是反向的: \[KL(\pi_\theta||\pi_{ref}) = E_{x\sim\pi_\theta(\cdot|o_{<t})}log\frac{\pi_\theta(x|o_{<t})}{\pi_{ref}(x|o_{<t})} 阅读全文
posted @ 2025-10-20 17:02 qlhh 阅读(265) 评论(0) 推荐(1)
摘要: 参考verl对dapo的实现,首先咱们看一下入口.sh和.py文件,在./recipe/dapo/文件夹中有以下目录 . ├── config │ ├── dapo_megatron_trainer.yaml │ └── dapo_trainer.yaml ├── dapo_ray_trainer. 阅读全文
posted @ 2025-10-19 21:34 qlhh 阅读(134) 评论(0) 推荐(0)
摘要: 论文地址 https://arxiv.org/abs/2503.14476 参考实验:DAPO + vLLM v1 + VeRL —— VOC性能比较 Motivation 没有完整的GRPO训练R1-32B的框架 目标: 降低错误样本的长度 (token-level loss) 训练更加稳定 (o 阅读全文
posted @ 2025-10-18 23:04 qlhh 阅读(60) 评论(0) 推荐(0)
摘要: DeepResearch代码浅析 概述 代码:DeepResearch 主要看一下inference下面的ReAct推理流程。 inference ├── eval_data │ ├── example_with_file.jsonl │ ├── example.jsonl │ └── file_c 阅读全文
posted @ 2025-10-17 12:29 qlhh 阅读(152) 评论(0) 推荐(1)
摘要: 理论上(浅显)分析Agent与传统llm、RAG的不同以及演进历程,根据Agent的目标解读AgentFounder论文的训练策略和数据集构建 Agent的目标以及对应的技术方案 Agent的推理目标 形式化的表达: 咱们首先来分析一下最开始大模型的功能,即仅根据\(\pi\)的内部知识和问题\(q 阅读全文
posted @ 2025-10-15 11:02 qlhh 阅读(189) 评论(0) 推荐(0)
摘要: PyTorch 的矩阵操作 注意: 无论是torch.f()还是tensor.f(),都是返回新的Tensor,不会修改原始的tensor 单个tensor 初始化 empty 用于创建一个未初始化的张量,其值是随机的 与torch.randn的区别在于,torch.randn是从正态分布中采样的 阅读全文
posted @ 2025-10-15 10:56 qlhh 阅读(49) 评论(0) 推荐(0)
摘要: 暂时无法在飞书文档外展示此内容 Toy实验现象 问题引出 Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise 在长序列的情况下,clip的机制会加一步累积noise的方差 token-level的IS ratio方差大,不稳定 方法设计 Sequen 阅读全文
posted @ 2025-10-13 14:22 qlhh 阅读(35) 评论(0) 推荐(0)
摘要: WebResearcher 解决的问题 推理过少:ReAct架构容易导致上下文observation累积,进而导致reasoning变少 错误累积:错误的、不相关的observation累积在上下文窗口中,导致推理时间长、影响action 方法 为避免observation在上下文窗口的累积,则需要 阅读全文
posted @ 2025-10-13 14:03 qlhh 阅读(41) 评论(0) 推荐(0)
摘要: BUAA_OO第四单元博客作业 一、架构设计 本单元主要考察类图、时序图、顺序图的规范表达。并根据一定的规则建立自己的结构层次,最后以此判断UML输入是否合法。下面详细介绍类图的结构 类图结构 在类图中新建MyClass、MyInterface、MyOPeration类来分别表示类、接口、方法函数体 阅读全文
posted @ 2021-06-26 17:09 qlhh 阅读(98) 评论(0) 推荐(0)