摘要:
因为自己实在是太好忘了💀 所以在博客存档方便查找
阅读全文
posted @ 2024-01-18 19:47
MoonOut
阅读(120)
推荐(0)
posted @ 2023-06-16 10:10
MoonOut
阅读(573)
推荐(0)
摘要:
本博客总结了与强化学习、RLHF 相关的 LLM 八股面试题。
阅读全文
posted @ 2026-03-21 19:13
MoonOut
阅读(28)
推荐(0)
摘要:
整理了 focal 等经典 offline meta-RL 工作的 1. offline 数据集收集、2. policy 训练和性能测试的方法。
阅读全文
posted @ 2026-03-19 16:34
MoonOut
阅读(95)
推荐(0)
摘要:
本博客总结了与多模态、主流模型架构相关的 LLM 八股面试题。
阅读全文
posted @ 2026-03-18 14:28
MoonOut
阅读(206)
推荐(0)
摘要:
本博客总结了 LLM 八股面试题中的手撕代码题。
阅读全文
posted @ 2026-03-15 21:57
MoonOut
阅读(197)
推荐(2)
摘要:
本博客总结了与 LLM 训练流程、微调技术相关的 LLM 八股面试题。
阅读全文
posted @ 2026-03-11 23:14
MoonOut
阅读(82)
推荐(0)
摘要:
本博客总结了与 Transformer 相关的 LLM 八股面试题。
阅读全文
posted @ 2026-03-11 16:33
MoonOut
阅读(305)
推荐(1)
posted @ 2026-03-11 15:12
MoonOut
阅读(214)
推荐(0)
摘要:
复习一下经典 dp 模型 背包问题。
阅读全文
posted @ 2026-03-10 20:08
MoonOut
阅读(32)
推荐(0)
posted @ 2026-03-10 18:57
MoonOut
阅读(10)
推荐(0)
摘要:
这个题使用桶排序思想:维护一个长度为 MAX_OCCUR_COUNT 的数组 buckets,buckets[i] = c 代表元素 c 出现 i 次。
阅读全文
posted @ 2026-03-10 16:29
MoonOut
阅读(7)
推荐(0)
摘要:
这个题不需要用到并查集;o(m×n) 复杂度遍历整个地图,使用 bfs 把所有岛屿“淹没”,就可以了。
阅读全文
posted @ 2026-03-10 15:00
MoonOut
阅读(9)
推荐(0)
摘要:
如果二叉树维护了父节点,则寻找最小公共祖先可以使用时间复杂度 o(H)、空间复杂度 o(1) 的双指针法,利用路径相等的原理,非常巧妙。
阅读全文
posted @ 2026-03-10 14:19
MoonOut
阅读(8)
推荐(0)
摘要:
经典二叉树递归题。如果 node == p 或 q 或 None,返回 node;然后,left, right = dfs(左子树) (右子树);如果 left 或 right 有值,证明 p 或 q 被找到了,返回有值的那个;如果 left right 都有值,则 p q 分别为 left right,return node。
阅读全文
posted @ 2026-03-10 14:08
MoonOut
阅读(116)
推荐(0)
摘要:
递归调用函数,对一个“根节点-左节点-右节点”结构的情况进行枚举:1. 路径为“根节点→左节点或右节点→它的子节点”;2. 路径为“左节点的子节点→左节点→根节点→右节点→右节点的子节点”。
阅读全文
posted @ 2026-03-10 13:43
MoonOut
阅读(16)
推荐(0)
摘要:
使用拒绝采样,构造 7×7 = 49 大小的空间,然后只使用 1-40。
阅读全文
posted @ 2026-03-04 14:19
MoonOut
阅读(121)
推荐(2)
摘要:
感觉是简单最小堆题目,不知道为啥 leetcode 评级是 hard。以及,因为 python list 排序很快,所以也可直接把链表上所有元素拿下来,排序,再构建全新链表。
阅读全文
posted @ 2026-03-03 23:21
MoonOut
阅读(24)
推荐(0)
摘要:
利用数组 1 末尾的空闲空间,使用从后向前的双指针,遍历数组 1 2 。
阅读全文
posted @ 2026-03-03 23:04
MoonOut
阅读(42)
推荐(0)
摘要:
二分查找:第 K 小的元素是多大呢?在有序矩阵中,给定一个数值,只需要 o(n) 复杂度,就可以得到 ≤ 它的元素的数量。因此,时间复杂度为 二分的 o(log 值域大小) × 查找的 o(n)。
阅读全文
posted @ 2026-03-03 23:00
MoonOut
阅读(75)
推荐(0)
摘要:
经典的 o(n) 做法,是通过类似快排的 partition pivot 操作,递归寻找第 k 大的数;然而思路四更加简洁优雅,时间复杂度也是 o(n) 的。
阅读全文
posted @ 2026-03-03 22:37
MoonOut
阅读(71)
推荐(0)
摘要:
先排序,然后固定数字 1,双指针法搜索数字 2 3,注意要把重复的数字 2 3 去除。
阅读全文
posted @ 2026-03-03 17:04
MoonOut
阅读(29)
推荐(0)
摘要:
使用 python 的 dict 存储 "字符: 出现位置" 的映射。
阅读全文
posted @ 2026-03-03 16:49
MoonOut
阅读(53)
推荐(0)
摘要:
第一次用 python 写记忆化搜索,用 dict 写起来很方便,思路也很清晰。
阅读全文
posted @ 2026-03-03 15:26
MoonOut
阅读(14)
推荐(0)
摘要:
如果认为判断一个 word 是否在 set 里是 o(1) 的,则 dp 方法的时间复杂度是 o(n²)。不过,集合判断操作的时间复杂度实际是 o(n) 的,所以总时间复杂度是 o(n³)。
阅读全文
posted @ 2026-03-03 15:17
MoonOut
阅读(8)
推荐(0)
posted @ 2026-03-03 15:08
MoonOut
阅读(14)
推荐(0)
摘要:
这一题比上一题(1143)更简单,使用 dp 可以轻松解决。滑动窗口匹配法的空间复杂度更低,但时间复杂度略高。
阅读全文
posted @ 2026-03-03 11:26
MoonOut
阅读(9)
推荐(0)
摘要:
这是一道经典的 dp 题。进一步,可以通过滚动数组,将空间复杂度从 o(mn) 优化到 o(m)。
阅读全文
posted @ 2026-03-03 11:14
MoonOut
阅读(22)
推荐(0)
摘要:
3D 接雨水和 2D 接雨水的思路很像:2D 接雨水的双指针,从左右向中间包围,3D 接雨水则是从四周形成一个圈,向中间包围。
阅读全文
posted @ 2026-03-03 10:43
MoonOut
阅读(29)
推荐(0)
摘要:
双指针法中,左右指针分别从最左最右向中间移动,时间复杂度 o(n),空间复杂度 o(1)。
阅读全文
posted @ 2026-03-03 10:28
MoonOut
阅读(186)
推荐(0)
posted @ 2026-03-02 21:47
MoonOut
阅读(99)
推荐(0)
摘要:
2026.03 | 速读文章纪录
阅读全文
posted @ 2026-03-02 00:01
MoonOut
阅读(30)
推荐(0)
posted @ 2026-02-17 23:08
MoonOut
阅读(36)
推荐(0)
摘要:
汇总并翻译了一些 VeRL 的文档。
阅读全文
posted @ 2026-02-17 17:40
MoonOut
阅读(41)
推荐(0)
摘要:
ssh config 中添加 RemoteForward 127.0.0.1:7890 127.0.0.1:7890。补档重传。
阅读全文
posted @ 2026-02-15 12:39
MoonOut
阅读(17)
推荐(0)
摘要:
提供了 MATH、GSM8K、AIME24 等常用数学数据集的 基本信息和链接。
阅读全文
posted @ 2026-02-13 13:13
MoonOut
阅读(281)
推荐(0)
摘要:
REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。
阅读全文
posted @ 2026-02-13 11:51
MoonOut
阅读(68)
推荐(0)
摘要:
2026.02 | 速读文章纪录
阅读全文
posted @ 2026-02-03 08:50
MoonOut
阅读(70)
推荐(0)
摘要:
rsync -avzP --progress /本地/大文件.zip user@服务器IP:/目标/路径/
阅读全文
posted @ 2026-01-30 13:34
MoonOut
阅读(182)
推荐(1)
摘要:
主要参考官方文档,介绍了如何基于 verl 使用 RL 微调大模型。
阅读全文
posted @ 2026-01-20 16:20
MoonOut
阅读(148)
推荐(0)
摘要:
主要参考知乎博客,介绍了如何基于 LLaMA-Factory 部署和 SFT 微调大模型。
阅读全文
posted @ 2026-01-10 17:22
MoonOut
阅读(58)
推荐(0)
摘要:
面对多任务 / 多目标学习中,可能相互冲突的梯度信号,现有方法通过加权、投影、统一符号等方法,调合这些梯度信号。
阅读全文
posted @ 2026-01-10 17:17
MoonOut
阅读(763)
推荐(1)