摘要: 理论上(浅显)分析Agent与传统llm、RAG的不同以及演进历程,根据Agent的目标解读AgentFounder论文的训练策略和数据集构建 Agent的目标以及对应的技术方案 Agent的推理目标 形式化的表达: 咱们首先来分析一下最开始大模型的功能,即仅根据\(\pi\)的内部知识和问题\(q 阅读全文
posted @ 2025-10-13 15:24 qlhh 阅读(4) 评论(0) 推荐(0)
摘要: 暂时无法在飞书文档外展示此内容 Toy实验现象 问题引出 Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise 在长序列的情况下,clip的机制会加一步累积noise的方差 token-level的IS ratio方差大,不稳定 方法设计 Sequen 阅读全文
posted @ 2025-10-13 14:22 qlhh 阅读(5) 评论(0) 推荐(0)
摘要: GitHub地址: https://github.com/Alibaba-NLP/WebAgent# 共有5篇系列文章 为Agent(React架构)在web search(Deepsearch)提供BenchMark以及模型训练方法。 WebWalker 将原始instruct-answer的si 阅读全文
posted @ 2025-10-13 14:13 qlhh 阅读(105) 评论(0) 推荐(0)
摘要: WebResearcher 解决的问题 推理过少:ReAct架构容易导致上下文observation累积,进而导致reasoning变少 错误累积:错误的、不相关的observation累积在上下文窗口中,导致推理时间长、影响action 方法 为避免observation在上下文窗口的累积,则需要 阅读全文
posted @ 2025-10-13 14:03 qlhh 阅读(4) 评论(0) 推荐(0)
摘要: BUAA_OO第四单元博客作业 一、架构设计 本单元主要考察类图、时序图、顺序图的规范表达。并根据一定的规则建立自己的结构层次,最后以此判断UML输入是否合法。下面详细介绍类图的结构 类图结构 在类图中新建MyClass、MyInterface、MyOPeration类来分别表示类、接口、方法函数体 阅读全文
posted @ 2021-06-26 17:09 qlhh 阅读(94) 评论(0) 推荐(0)
摘要: BUAA_OO第三单元博客作业 实现规格采取的设计策略 确定每个类的功能 首先要对方法所在的类进行自然语言上的理解,大致了解类中每个方法的功能和作用。根据方法来确定类的属性,进一步选择实现属性的类型或是容器。这样可以对之后各个方法的书写提供纲领上的指导。 先处理异常 面向用户设计的程序,一般都要注意 阅读全文
posted @ 2021-05-29 14:35 qlhh 阅读(69) 评论(1) 推荐(0)
摘要: 情景回顾 实验要求 实现多电梯之间的调度以及完成增加电梯的要求。 电梯共有三类,每类都有能到达的楼层、移动速度、最大载客量等属性。 电梯运行分为三种模式 Morning : 每位乘客向电梯发送请求的时间间隔不超过2s,且起始楼层都是1楼。 Night: 所有乘客都同时向电梯发出请求,且目的楼层都时1 阅读全文
posted @ 2021-04-24 20:54 qlhh 阅读(90) 评论(0) 推荐(0)
摘要: 第一次作业 UML 图 架构与实现方法 根据题目对因子,项,表达式的定义,我建立了Polynomial Item Factor 三个类来分别表示表达式,项,因子。 类的属性方法: Polynomial :创建Arraylist<Item>属性,来统一管理所有的项,在最后对项进行合并和化简,最后求导。 阅读全文
posted @ 2021-03-27 20:58 qlhh 阅读(104) 评论(2) 推荐(2)