会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
qlhh
博客园
首页
新随笔
联系
订阅
管理
1
2
下一页
2025年10月21日
Search-R1论文浅析与代码实现
摘要: GitHub: https://github.com/PeterGriffinJin/Search-R1 论文: link1, link2 Motivation 使用seach engine给reasoning LLM赋能 Method 在PPO的基础上,基于给定的Search Egine \(R\
阅读全文
posted @ 2025-10-21 12:28 qlhh
阅读(157)
评论(0)
推荐(0)
2025年10月20日
PPO GRPO GSPO DAPO的Loss计算与代码实现
摘要: 首先看一下KL的基础公式 KL KL1: 大模型的KL一般是反向的: \[KL(\pi_\theta||\pi_{ref}) = E_{x\sim\pi_\theta(\cdot|o_{<t})}log\frac{\pi_\theta(x|o_{<t})}{\pi_{ref}(x|o_{<t})}
阅读全文
posted @ 2025-10-20 17:02 qlhh
阅读(265)
评论(0)
推荐(1)
2025年10月19日
DAPO代码实现浅析
摘要: 参考verl对dapo的实现,首先咱们看一下入口.sh和.py文件,在./recipe/dapo/文件夹中有以下目录 . ├── config │ ├── dapo_megatron_trainer.yaml │ └── dapo_trainer.yaml ├── dapo_ray_trainer.
阅读全文
posted @ 2025-10-19 21:34 qlhh
阅读(134)
评论(0)
推荐(0)
2025年10月18日
DAPO浅析
摘要: 论文地址 https://arxiv.org/abs/2503.14476 参考实验:DAPO + vLLM v1 + VeRL —— VOC性能比较 Motivation 没有完整的GRPO训练R1-32B的框架 目标: 降低错误样本的长度 (token-level loss) 训练更加稳定 (o
阅读全文
posted @ 2025-10-18 23:04 qlhh
阅读(60)
评论(0)
推荐(0)
2025年10月17日
DeepResearch代码浅析
摘要: DeepResearch代码浅析 概述 代码:DeepResearch 主要看一下inference下面的ReAct推理流程。 inference ├── eval_data │ ├── example_with_file.jsonl │ ├── example.jsonl │ └── file_c
阅读全文
posted @ 2025-10-17 12:29 qlhh
阅读(152)
评论(0)
推荐(1)
2025年10月15日
AgentFounder浅析——Agent的演化历程与目标
摘要: 理论上(浅显)分析Agent与传统llm、RAG的不同以及演进历程,根据Agent的目标解读AgentFounder论文的训练策略和数据集构建 Agent的目标以及对应的技术方案 Agent的推理目标 形式化的表达: 咱们首先来分析一下最开始大模型的功能,即仅根据\(\pi\)的内部知识和问题\(q
阅读全文
posted @ 2025-10-15 11:02 qlhh
阅读(189)
评论(0)
推荐(0)
pytorch的矩阵操作分类
摘要: PyTorch 的矩阵操作 注意: 无论是torch.f()还是tensor.f(),都是返回新的Tensor,不会修改原始的tensor 单个tensor 初始化 empty 用于创建一个未初始化的张量,其值是随机的 与torch.randn的区别在于,torch.randn是从正态分布中采样的
阅读全文
posted @ 2025-10-15 10:56 qlhh
阅读(49)
评论(0)
推荐(0)
2025年10月13日
GSPO
摘要: 暂时无法在飞书文档外展示此内容 Toy实验现象 问题引出 Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise 在长序列的情况下,clip的机制会加一步累积noise的方差 token-level的IS ratio方差大,不稳定 方法设计 Sequen
阅读全文
posted @ 2025-10-13 14:22 qlhh
阅读(35)
评论(0)
推荐(0)
Qwen DeepResearch 系列
摘要: WebResearcher 解决的问题 推理过少:ReAct架构容易导致上下文observation累积,进而导致reasoning变少 错误累积:错误的、不相关的observation累积在上下文窗口中,导致推理时间长、影响action 方法 为避免observation在上下文窗口的累积,则需要
阅读全文
posted @ 2025-10-13 14:03 qlhh
阅读(41)
评论(0)
推荐(0)
2021年6月26日
BUAA_OO第四单元博客作业
摘要: BUAA_OO第四单元博客作业 一、架构设计 本单元主要考察类图、时序图、顺序图的规范表达。并根据一定的规则建立自己的结构层次,最后以此判断UML输入是否合法。下面详细介绍类图的结构 类图结构 在类图中新建MyClass、MyInterface、MyOPeration类来分别表示类、接口、方法函数体
阅读全文
posted @ 2021-06-26 17:09 qlhh
阅读(98)
评论(0)
推荐(0)
1
2
下一页
公告