qlhh

2025年10月21日

摘要： GitHub: https://github.com/PeterGriffinJin/Search-R1 论文： link1, link2 Motivation 使用seach engine给reasoning LLM赋能 Method 在PPO的基础上，基于给定的Search Egine \(R\ 阅读全文

posted @ 2025-10-21 12:28 qlhh 阅读(219) 评论(0) 推荐(0)

2025年10月20日

PPO GRPO GSPO DAPO的Loss计算与代码实现

摘要：首先看一下KL的基础公式 KL KL1: 大模型的KL一般是反向的： \[KL(\pi_\theta||\pi_{ref}) = E_{x\sim\pi_\theta(\cdot|o_{<t})}log\frac{\pi_\theta(x|o_{<t})}{\pi_{ref}(x|o_{<t})} 阅读全文

posted @ 2025-10-20 17:02 qlhh 阅读(424) 评论(0) 推荐(1)

2025年10月19日

DAPO代码实现浅析

摘要：参考verl对dapo的实现，首先咱们看一下入口.sh和.py文件，在./recipe/dapo/文件夹中有以下目录 . ├── config │ ├── dapo_megatron_trainer.yaml │ └── dapo_trainer.yaml ├── dapo_ray_trainer. 阅读全文

posted @ 2025-10-19 21:34 qlhh 阅读(198) 评论(0) 推荐(0)

2025年10月18日

DAPO浅析

摘要：论文地址 https://arxiv.org/abs/2503.14476 参考实验：DAPO + vLLM v1 + VeRL —— VOC性能比较 Motivation 没有完整的GRPO训练R1-32B的框架目标：降低错误样本的长度 (token-level loss) 训练更加稳定 (o 阅读全文

posted @ 2025-10-18 23:04 qlhh 阅读(78) 评论(0) 推荐(0)

2025年10月17日

DeepResearch代码浅析

摘要： DeepResearch代码浅析概述代码：DeepResearch 主要看一下inference下面的ReAct推理流程。 inference ├── eval_data │ ├── example_with_file.jsonl │ ├── example.jsonl │ └── file_c 阅读全文

posted @ 2025-10-17 12:29 qlhh 阅读(175) 评论(0) 推荐(1)

2025年10月15日

AgentFounder浅析——Agent的演化历程与目标

摘要：理论上（浅显）分析Agent与传统llm、RAG的不同以及演进历程，根据Agent的目标解读AgentFounder论文的训练策略和数据集构建 Agent的目标以及对应的技术方案 Agent的推理目标形式化的表达: 咱们首先来分析一下最开始大模型的功能，即仅根据\(\pi\)的内部知识和问题\(q 阅读全文

posted @ 2025-10-15 11:02 qlhh 阅读(202) 评论(0) 推荐(0)

pytorch的矩阵操作分类

摘要： PyTorch 的矩阵操作注意：无论是torch.f()还是tensor.f()，都是返回新的Tensor，不会修改原始的tensor 单个tensor 初始化 empty 用于创建一个未初始化的张量，其值是随机的与torch.randn的区别在于，torch.randn是从正态分布中采样的阅读全文

posted @ 2025-10-15 10:56 qlhh 阅读(61) 评论(0) 推荐(0)

2025年10月13日

GSPO

摘要：暂时无法在飞书文档外展示此内容 Toy实验现象问题引出 Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise 在长序列的情况下，clip的机制会加一步累积noise的方差 token-level的IS ratio方差大，不稳定方法设计 Sequen 阅读全文

posted @ 2025-10-13 14:22 qlhh 阅读(40) 评论(0) 推荐(0)

Qwen DeepResearch 系列

摘要： WebResearcher 解决的问题推理过少：ReAct架构容易导致上下文observation累积，进而导致reasoning变少错误累积：错误的、不相关的observation累积在上下文窗口中，导致推理时间长、影响action 方法为避免observation在上下文窗口的累积，则需要阅读全文

posted @ 2025-10-13 14:03 qlhh 阅读(52) 评论(0) 推荐(0)

2021年6月26日

BUAA_OO第四单元博客作业

摘要： BUAA_OO第四单元博客作业一、架构设计本单元主要考察类图、时序图、顺序图的规范表达。并根据一定的规则建立自己的结构层次，最后以此判断UML输入是否合法。下面详细介绍类图的结构类图结构在类图中新建MyClass、MyInterface、MyOPeration类来分别表示类、接口、方法函数体阅读全文

posted @ 2021-06-26 17:09 qlhh 阅读(103) 评论(0) 推荐(0)

公告