摘要: 因为自己实在是太好忘了💀 所以在博客存档方便查找 阅读全文
posted @ 2024-01-18 19:47 MoonOut 阅读(120) 评论(0) 推荐(0)
摘要: 存下来方便查阅。 阅读全文
posted @ 2023-06-16 10:10 MoonOut 阅读(573) 评论(1) 推荐(0)
摘要: 本博客总结了与强化学习、RLHF 相关的 LLM 八股面试题。 阅读全文
posted @ 2026-03-21 19:13 MoonOut 阅读(28) 评论(0) 推荐(0)
摘要: 整理了 focal 等经典 offline meta-RL 工作的 1. offline 数据集收集、2. policy 训练和性能测试的方法。 阅读全文
posted @ 2026-03-19 16:34 MoonOut 阅读(95) 评论(0) 推荐(0)
摘要: 本博客总结了与多模态、主流模型架构相关的 LLM 八股面试题。 阅读全文
posted @ 2026-03-18 14:28 MoonOut 阅读(206) 评论(0) 推荐(0)
摘要: 本博客总结了 LLM 八股面试题中的手撕代码题。 阅读全文
posted @ 2026-03-15 21:57 MoonOut 阅读(197) 评论(0) 推荐(2)
摘要: 本博客总结了与 LLM 训练流程、微调技术相关的 LLM 八股面试题。 阅读全文
posted @ 2026-03-11 23:14 MoonOut 阅读(82) 评论(2) 推荐(0)
摘要: 本博客总结了与 Transformer 相关的 LLM 八股面试题。 阅读全文
posted @ 2026-03-11 16:33 MoonOut 阅读(305) 评论(0) 推荐(1)
摘要: 根据小红书和牛客网的面经总结。 阅读全文
posted @ 2026-03-11 15:12 MoonOut 阅读(214) 评论(0) 推荐(0)
摘要: 复习一下经典 dp 模型 背包问题。 阅读全文
posted @ 2026-03-10 20:08 MoonOut 阅读(32) 评论(0) 推荐(0)
摘要: 感觉状态机的思路是最直观的。 阅读全文
posted @ 2026-03-10 18:57 MoonOut 阅读(10) 评论(0) 推荐(0)
摘要: 这个题使用桶排序思想:维护一个长度为 MAX_OCCUR_COUNT 的数组 buckets,buckets[i] = c 代表元素 c 出现 i 次。 阅读全文
posted @ 2026-03-10 16:29 MoonOut 阅读(7) 评论(0) 推荐(0)
摘要: 这个题不需要用到并查集;o(m×n) 复杂度遍历整个地图,使用 bfs 把所有岛屿“淹没”,就可以了。 阅读全文
posted @ 2026-03-10 15:00 MoonOut 阅读(9) 评论(0) 推荐(0)
摘要: 如果二叉树维护了父节点,则寻找最小公共祖先可以使用时间复杂度 o(H)、空间复杂度 o(1) 的双指针法,利用路径相等的原理,非常巧妙。 阅读全文
posted @ 2026-03-10 14:19 MoonOut 阅读(8) 评论(0) 推荐(0)
摘要: 经典二叉树递归题。如果 node == p 或 q 或 None,返回 node;然后,left, right = dfs(左子树) (右子树);如果 left 或 right 有值,证明 p 或 q 被找到了,返回有值的那个;如果 left right 都有值,则 p q 分别为 left right,return node。 阅读全文
posted @ 2026-03-10 14:08 MoonOut 阅读(116) 评论(0) 推荐(0)
摘要: 递归调用函数,对一个“根节点-左节点-右节点”结构的情况进行枚举:1. 路径为“根节点→左节点或右节点→它的子节点”;2. 路径为“左节点的子节点→左节点→根节点→右节点→右节点的子节点”。 阅读全文
posted @ 2026-03-10 13:43 MoonOut 阅读(16) 评论(0) 推荐(0)
摘要: 使用拒绝采样,构造 7×7 = 49 大小的空间,然后只使用 1-40。 阅读全文
posted @ 2026-03-04 14:19 MoonOut 阅读(121) 评论(0) 推荐(2)
摘要: 感觉是简单最小堆题目,不知道为啥 leetcode 评级是 hard。以及,因为 python list 排序很快,所以也可直接把链表上所有元素拿下来,排序,再构建全新链表。 阅读全文
posted @ 2026-03-03 23:21 MoonOut 阅读(24) 评论(0) 推荐(0)
摘要: 利用数组 1 末尾的空闲空间,使用从后向前的双指针,遍历数组 1 2 。 阅读全文
posted @ 2026-03-03 23:04 MoonOut 阅读(42) 评论(0) 推荐(0)
摘要: 二分查找:第 K 小的元素是多大呢?在有序矩阵中,给定一个数值,只需要 o(n) 复杂度,就可以得到 ≤ 它的元素的数量。因此,时间复杂度为 二分的 o(log 值域大小) × 查找的 o(n)。 阅读全文
posted @ 2026-03-03 23:00 MoonOut 阅读(75) 评论(0) 推荐(0)
摘要: 经典的 o(n) 做法,是通过类似快排的 partition pivot 操作,递归寻找第 k 大的数;然而思路四更加简洁优雅,时间复杂度也是 o(n) 的。 阅读全文
posted @ 2026-03-03 22:37 MoonOut 阅读(71) 评论(0) 推荐(0)
摘要: 先排序,然后固定数字 1,双指针法搜索数字 2 3,注意要把重复的数字 2 3 去除。 阅读全文
posted @ 2026-03-03 17:04 MoonOut 阅读(29) 评论(0) 推荐(0)
摘要: 使用 python 的 dict 存储 "字符: 出现位置" 的映射。 阅读全文
posted @ 2026-03-03 16:49 MoonOut 阅读(53) 评论(0) 推荐(0)
摘要: 第一次用 python 写记忆化搜索,用 dict 写起来很方便,思路也很清晰。 阅读全文
posted @ 2026-03-03 15:26 MoonOut 阅读(14) 评论(0) 推荐(0)
摘要: 如果认为判断一个 word 是否在 set 里是 o(1) 的,则 dp 方法的时间复杂度是 o(n²)。不过,集合判断操作的时间复杂度实际是 o(n) 的,所以总时间复杂度是 o(n³)。 阅读全文
posted @ 2026-03-03 15:17 MoonOut 阅读(8) 评论(0) 推荐(0)
摘要: 又一个 dp 基础题。 阅读全文
posted @ 2026-03-03 15:08 MoonOut 阅读(14) 评论(0) 推荐(0)
摘要: 这一题比上一题(1143)更简单,使用 dp 可以轻松解决。滑动窗口匹配法的空间复杂度更低,但时间复杂度略高。 阅读全文
posted @ 2026-03-03 11:26 MoonOut 阅读(9) 评论(0) 推荐(0)
摘要: 这是一道经典的 dp 题。进一步,可以通过滚动数组,将空间复杂度从 o(mn) 优化到 o(m)。 阅读全文
posted @ 2026-03-03 11:14 MoonOut 阅读(22) 评论(0) 推荐(0)
摘要: 3D 接雨水和 2D 接雨水的思路很像:2D 接雨水的双指针,从左右向中间包围,3D 接雨水则是从四周形成一个圈,向中间包围。 阅读全文
posted @ 2026-03-03 10:43 MoonOut 阅读(29) 评论(0) 推荐(0)
摘要: 双指针法中,左右指针分别从最左最右向中间移动,时间复杂度 o(n),空间复杂度 o(1)。 阅读全文
posted @ 2026-03-03 10:28 MoonOut 阅读(186) 评论(0) 推荐(0)
摘要: 根据小红书和牛客网的面经总结。 阅读全文
posted @ 2026-03-02 21:47 MoonOut 阅读(99) 评论(0) 推荐(0)
摘要: 2026.03 | 速读文章纪录 阅读全文
posted @ 2026-03-02 00:01 MoonOut 阅读(30) 评论(0) 推荐(0)
摘要: 未完待续。 阅读全文
posted @ 2026-02-17 23:08 MoonOut 阅读(36) 评论(0) 推荐(0)
摘要: 汇总并翻译了一些 VeRL 的文档。 阅读全文
posted @ 2026-02-17 17:40 MoonOut 阅读(41) 评论(0) 推荐(0)
摘要: ssh config 中添加 RemoteForward 127.0.0.1:7890 127.0.0.1:7890。补档重传。 阅读全文
posted @ 2026-02-15 12:39 MoonOut 阅读(17) 评论(0) 推荐(0)
摘要: 提供了 MATH、GSM8K、AIME24 等常用数学数据集的 基本信息和链接。 阅读全文
posted @ 2026-02-13 13:13 MoonOut 阅读(281) 评论(0) 推荐(0)
摘要: REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。 阅读全文
posted @ 2026-02-13 11:51 MoonOut 阅读(68) 评论(0) 推荐(0)
摘要: 2026.02 | 速读文章纪录 阅读全文
posted @ 2026-02-03 08:50 MoonOut 阅读(70) 评论(0) 推荐(0)
摘要: rsync -avzP --progress /本地/大文件.zip user@服务器IP:/目标/路径/ 阅读全文
posted @ 2026-01-30 13:34 MoonOut 阅读(182) 评论(0) 推荐(1)
摘要: 主要参考官方文档,介绍了如何基于 verl 使用 RL 微调大模型。 阅读全文
posted @ 2026-01-20 16:20 MoonOut 阅读(148) 评论(0) 推荐(0)
摘要: 主要参考知乎博客,介绍了如何基于 LLaMA-Factory 部署和 SFT 微调大模型。 阅读全文
posted @ 2026-01-10 17:22 MoonOut 阅读(58) 评论(0) 推荐(0)
摘要: 面对多任务 / 多目标学习中,可能相互冲突的梯度信号,现有方法通过加权、投影、统一符号等方法,调合这些梯度信号。 阅读全文
posted @ 2026-01-10 17:17 MoonOut 阅读(763) 评论(0) 推荐(1)