摘要: 我会不时上传一些自己的笔记,如果有理解错误的地方请在评论区指出,我会及时回复的! 如果我的笔记有帮助到你的话,可以动动小手登录一下,你的点赞评论和关注是我持续更新的动力!(成就感↑↑↑) 阅读全文
posted @ 2025-03-07 21:49 绵满 阅读(284) 评论(0) 推荐(1)
摘要: 多维动态规划 (1) 不同路径 """ 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。问总共有多少条不同的路径? """ dp = [[1] * n fo 阅读全文
posted @ 2026-03-14 18:24 绵满 阅读(7) 评论(0) 推荐(0)
摘要: 贪心 (1) 买卖股票的最佳时机 """ 给定一个数组 prices, 它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。你只能选择某一天买入这只股票,并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。 """ res = 0 min_pric 阅读全文
posted @ 2026-03-14 18:23 绵满 阅读(5) 评论(0) 推荐(0)
摘要: 二分查找 (1) 搜索插入位置 """ 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 """ left = 0 right = len(nums)-1 while left <= right: mid = (left+rig 阅读全文
posted @ 2026-03-14 18:20 绵满 阅读(3) 评论(0) 推荐(0)
摘要: 图论 (1) 岛屿数量 """ 给你一个由 '1'(陆地)和 '0'(水)组成的的二维网格,请你计算网格中岛屿的数量。岛屿总是被水包围,并且每座岛屿只能由水平方向和/或竖直方向上相邻的陆地连接形成。 """ res = 0 def dfs(grid, i, j): if not 0 <= i < l 阅读全文
posted @ 2026-03-14 18:18 绵满 阅读(5) 评论(0) 推荐(0)
摘要: 二叉树 (1) 中序遍历 """ 给定一个二叉树的根节点 root,返回它的中序遍历。 """ def inorderTraversal(self, root): """ :type root: Optional[TreeNode] :rtype: List[int] """ res = [] se 阅读全文
posted @ 2026-03-14 18:17 绵满 阅读(6) 评论(0) 推荐(0)
摘要: 链表 (1) 相交链表 """ 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null """ A, B = headA, headB while A != B: A = A.next if A else headB 阅读全文
posted @ 2026-03-14 18:08 绵满 阅读(14) 评论(0) 推荐(0)
摘要: 子串 (1) 和为 k 的子数组(前缀和) """ 给你一个整数数组 nums 和一个整数 k,请你统计并返回该数组中和为 k 的子数组的个数 输入:nums = [1,2,3], k = 3 输出:2 """ res = 0 presums = collections.defaultdict(in 阅读全文
posted @ 2026-03-13 18:35 绵满 阅读(5) 评论(0) 推荐(0)
摘要: 哈希 (1) twosum 问题返回数组下标 """ 如果假设输入一个数组 nums 和一个目标和 target,请你返回 nums 中能够凑出 target 的两个元素的数组下标 输入:nums = [2,7,11,15], target = 9 输出:[0,1] """ hashmap = {} 阅读全文
posted @ 2026-03-13 18:16 绵满 阅读(28) 评论(0) 推荐(0)
摘要: RL 简介 (1) 定义 强化学习(Reinforcement Learning)是一种机器学习方法,用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体(Agent)学习如何在不同情境下采取行动,以最大化长期累积奖励 (2) 强化学习流程 强化 阅读全文
posted @ 2026-03-13 16:20 绵满 阅读(130) 评论(0) 推荐(0)
摘要: PPL PPL 困惑度衡量的是语言模型对文本的不确定程度,困惑度越低说明模型越确定下一步要生成什么词,模型越好 \(ppl=\exp(-\frac{1}{N}\sum_{n=1}{N} P(w_n|w_{<n}))\) 其计算方法是计算句子每个 token 的平均对数似然,再过一个指数函数 BLEU 阅读全文
posted @ 2026-03-10 16:24 绵满 阅读(13) 评论(0) 推荐(0)
摘要: SFT 简介 (1) 什么是监督微调 监督微调(SFT)通过利用特定于任务的标签数据集将预训练的 LLM 适应特定任务。SFT 的数据集通常组织如下,一条样本包含一个指令和对应的回答:\(D=\{(I_K,A_K)\}_{K=1}^N\) (2) 监督微调和预训练的区别 在训练方式上没有任何区别,损 阅读全文
posted @ 2026-03-09 15:29 绵满 阅读(61) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:EMNLP'24 (2) 背景 现有方法通常存在一些缺点,例如只关注变化的行是不够的,或者在变化周围包含不相关的行会带来噪声。如图 1 所示,添加和删除的代码实际上是相同的,只是位置不同,导致代码更改定义不明确。此外,由于缺乏程序依赖关系分析,更改的行和程序的未更改部分之间的关联 阅读全文
posted @ 2025-09-22 15:29 绵满 阅读(48) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:ICSE'25 (2) 背景 最近的一些工作研究了基于 LLM 的提交信息生成,然而目前尚不清楚 LLM 通过 ICL 在该领域的表现如何 (3) 贡献 本文对通过 ICL 使用 LLM 进行提交信息生成进行了实证研究,并创建了一个新的数据集 工作 (1) 研究设计 RQ1:不同 阅读全文
posted @ 2025-09-20 09:34 绵满 阅读(29) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:ICSE'25 (2) 背景 之前的研究表明,与传统的代码摘要模型相比,LLM 生成的摘要在表达方式上与参考摘要有很大不同,并且倾向于描述更多的细节。因此,传统的评估方法是否适合评估 LLM 生成摘要的质量仍然未知 (3) 贡献 受到 NLP 工作的启发,本文对使用 LLM 本身 阅读全文
posted @ 2025-09-18 15:46 绵满 阅读(47) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:Arxiv 09.03 (2) 背景 查明对长执行跟踪链路中错误负责的特定代理或步骤被定义为代理系统故障归因的任务。然而,当前最新的推理 LLMS 仍不为此挑战而明显不足,精度通常低于10% 尽管现有工作已经作出了初步尝试,但他们仍然存在实质性的研究差距:① 培训资源(涉及大规模 阅读全文
posted @ 2025-09-08 16:45 绵满 阅读(96) 评论(0) 推荐(0)