摘要: 我会不时上传一些自己的笔记,如果有理解错误的地方请在评论区指出,我会及时回复的! 如果我的笔记有帮助到你的话,可以动动小手登录一下,你的点赞评论和关注是我持续更新的动力!(成就感↑↑↑) 阅读全文
posted @ 2025-03-07 21:49 绵满 阅读(288) 评论(0) 推荐(1)
摘要: 背景 观看时长预测本质是一个回归问题,由于时长是连续值,跨度很大。又因为标签的分布显著影响回归任务的难度,适当的分布假设可以提高回归精度 利用小红书工业数据,作者对观看时长进行了彻底的调查,结果如下: 总体来看,在 0 附近有明显的偏度,快滑占多数 在持续时间上有明显的双峰模式 特定用户的观看时间分 阅读全文
posted @ 2026-05-05 14:56 绵满 阅读(7) 评论(0) 推荐(0)
摘要: 背景 观看时长(watch time)是视频推荐中的重要指标之一,提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响:用户是否对视频感兴趣、视频本身的时长(duration) 作者分析发现持续时间数据存在明显的偏差现象(图中给出了明显的体现),具体体现在以下两个方面: 一方面,1 阅读全文
posted @ 2026-05-05 14:46 绵满 阅读(40) 评论(0) 推荐(0)
摘要: 背景 Agent 系统的性能越来越依赖 Harness,但这些逻辑通常藏在代码里、框架默认设置里,或者特定运行时的各种约定里。结果就是很难把一个 Harness 移植到另一个系统、拿来比较,或者系统性地研究改进 作者提出把 Harness 的高层控制逻辑从代码中抽出来,用自然语言写成一个可编辑、可移 阅读全文
posted @ 2026-04-06 21:53 绵满 阅读(142) 评论(0) 推荐(0)
摘要: 背景 作为模型外面的那层运行框架,Harness 的优化至关重要,但与现有各种文本优化的方法不同,Harness 是一个复杂的带状态的外层程序 最近虽然涌现了一些“文本优化器”(如 OPRO, TextGrad, GEPA 等),试图利用 LLM 来迭代改进 Prompt 或代码,但它们在 Harn 阅读全文
posted @ 2026-04-06 17:14 绵满 阅读(108) 评论(0) 推荐(0)
摘要: 背景 现有的 memory 工作主要都关注 Agent 独立利用自身存储的记忆来完成任务,这种孤立的范式忽视了 Agents 间的互动和集体记忆的巨大潜力。当前方法常常未能模拟复杂多代理环境中自然发生的异步对话和知识交流,忽视了拥有独特对话历史和专业培训的 Agents 之间的固有多样性和互补性 因 阅读全文
posted @ 2026-03-29 12:36 绵满 阅读(88) 评论(0) 推荐(1)
摘要: 背景 智能体记忆如今极其碎片化,研究人员们发现,当大家谈论智能体记忆时,所指的可能完全是不同的事物:有人专注于存储用户对话历史,有人研究如何从失败中提炼策略,还有人试图将知识直接烙进模型参数里。同时,大量新兴术语(如陈述性记忆、情景记忆、参数记忆等)的涌现,进一步模糊了概念的清晰度 因此,这篇综述直 阅读全文
posted @ 2026-03-22 21:52 绵满 阅读(60) 评论(0) 推荐(0)
摘要: 多维动态规划 (1) 不同路径 """ 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。问总共有多少条不同的路径? """ dp = [[1] * n fo 阅读全文
posted @ 2026-03-14 18:24 绵满 阅读(19) 评论(0) 推荐(0)
摘要: 贪心 (1) 买卖股票的最佳时机 """ 给定一个数组 prices, 它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。你只能选择某一天买入这只股票,并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。 """ res = 0 min_pric 阅读全文
posted @ 2026-03-14 18:23 绵满 阅读(9) 评论(0) 推荐(0)
摘要: 二分查找 (1) 搜索插入位置 """ 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 """ left = 0 right = len(nums)-1 while left <= right: mid = (left+rig 阅读全文
posted @ 2026-03-14 18:20 绵满 阅读(8) 评论(0) 推荐(0)
摘要: 图论 (1) 岛屿数量 """ 给你一个由 '1'(陆地)和 '0'(水)组成的的二维网格,请你计算网格中岛屿的数量。岛屿总是被水包围,并且每座岛屿只能由水平方向和/或竖直方向上相邻的陆地连接形成。 """ res = 0 def dfs(grid, i, j): if not 0 <= i < l 阅读全文
posted @ 2026-03-14 18:18 绵满 阅读(10) 评论(0) 推荐(0)
摘要: 二叉树 (1) 中序遍历 """ 给定一个二叉树的根节点 root,返回它的中序遍历。 """ def inorderTraversal(self, root): """ :type root: Optional[TreeNode] :rtype: List[int] """ res = [] se 阅读全文
posted @ 2026-03-14 18:17 绵满 阅读(13) 评论(0) 推荐(0)
摘要: 链表 (1) 相交链表 """ 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null """ A, B = headA, headB while A != B: A = A.next if A else headB 阅读全文
posted @ 2026-03-14 18:08 绵满 阅读(36) 评论(0) 推荐(0)
摘要: 子串 (1) 和为 k 的子数组(前缀和) """ 给你一个整数数组 nums 和一个整数 k,请你统计并返回该数组中和为 k 的子数组的个数 输入:nums = [1,2,3], k = 3 输出:2 """ res = 0 presums = collections.defaultdict(in 阅读全文
posted @ 2026-03-13 18:35 绵满 阅读(18) 评论(0) 推荐(0)
摘要: 哈希 (1) twosum 问题返回数组下标 """ 如果假设输入一个数组 nums 和一个目标和 target,请你返回 nums 中能够凑出 target 的两个元素的数组下标 输入:nums = [2,7,11,15], target = 9 输出:[0,1] """ hashmap = {} 阅读全文
posted @ 2026-03-13 18:16 绵满 阅读(47) 评论(0) 推荐(0)
摘要: RL 简介 (1) 定义 强化学习(Reinforcement Learning)是一种机器学习方法,用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体(Agent)学习如何在不同情境下采取行动,以最大化长期累积奖励 (2) 强化学习流程 强化 阅读全文
posted @ 2026-03-13 16:20 绵满 阅读(171) 评论(0) 推荐(0)