MoonOut - 博客园

2026年3月3日

LeetCode 378 有序矩阵中第 K 小的元素：python3 题解

摘要：二分查找：第 K 小的元素是多大呢？在有序矩阵中，给定一个数值，只需要 o(n) 复杂度，就可以得到 ≤ 它的元素的数量。因此，时间复杂度为二分的 o(log 值域大小) × 查找的 o(n)。阅读全文

posted @ 2026-03-03 23:00 MoonOut 阅读(114) 评论(0) 推荐(0)

LeetCode 215 数组中的第 K 个最大元素：python3 题解

摘要：经典的 o(n) 做法，是通过类似快排的 partition pivot 操作，递归寻找第 k 大的数；然而思路四更加简洁优雅，时间复杂度也是 o(n) 的。阅读全文

posted @ 2026-03-03 22:37 MoonOut 阅读(288) 评论(0) 推荐(0)

LeetCode 15 三数之和：python3 题解

摘要：先排序，然后固定数字 1，双指针法搜索数字 2 3，注意要把重复的数字 2 3 去除。阅读全文

posted @ 2026-03-03 17:04 MoonOut 阅读(233) 评论(0) 推荐(0)

LeetCode 3 无重复字符的最长子串：python3 题解

摘要：使用 python 的 dict 存储 "字符: 出现位置" 的映射。阅读全文

posted @ 2026-03-03 16:49 MoonOut 阅读(270) 评论(0) 推荐(0)

LeetCode 140 单词拆分 II（输出所有可行拆分句子）：python3 题解

摘要：第一次用 python 写记忆化搜索，用 dict 写起来很方便，思路也很清晰。阅读全文

posted @ 2026-03-03 15:26 MoonOut 阅读(48) 评论(0) 推荐(0)

LeetCode 139 单词拆分：python3 题解

摘要：如果认为判断一个 word 是否在 set 里是 o(1) 的，则 dp 方法的时间复杂度是 o(n²)。不过，集合判断操作的时间复杂度实际是 o(n) 的，所以总时间复杂度是 o(n³)。阅读全文

posted @ 2026-03-03 15:17 MoonOut 阅读(66) 评论(0) 推荐(0)

LeetCode 72 编辑距离：python3 题解

摘要：又一个 dp 基础题。阅读全文

posted @ 2026-03-03 15:08 MoonOut 阅读(98) 评论(0) 推荐(0)

LeetCode 718 最长重复子数组：python3 题解

摘要：这一题比上一题（1143）更简单，使用 dp 可以轻松解决。滑动窗口匹配法的空间复杂度更低，但时间复杂度略高。阅读全文

posted @ 2026-03-03 11:26 MoonOut 阅读(52) 评论(0) 推荐(0)

LeetCode 1143 最长公共子序列：python 3 题解

摘要：这是一道经典的 dp 题。进一步，可以通过滚动数组，将空间复杂度从 o(mn) 优化到 o(m)。阅读全文

posted @ 2026-03-03 11:14 MoonOut 阅读(134) 评论(0) 推荐(0)

LeetCode 407 接雨水 II（3D 版）：python3 题解

摘要： 3D 接雨水和 2D 接雨水的思路很像：2D 接雨水的双指针，从左右向中间包围，3D 接雨水则是从四周形成一个圈，向中间包围。阅读全文

posted @ 2026-03-03 10:43 MoonOut 阅读(153) 评论(0) 推荐(0)

LeetCode 42 接雨水：python3 题解

摘要：双指针法中，左右指针分别从最左最右向中间移动，时间复杂度 o(n)，空间复杂度 o(1)。阅读全文

posted @ 2026-03-03 10:28 MoonOut 阅读(341) 评论(2) 推荐(0)

2026年3月2日

LLM 算法岗 | 字节面试常问的 leetcode 算法题汇总，附 leetcode 链接

摘要：根据小红书和牛客网的面经总结。阅读全文

posted @ 2026-03-02 21:47 MoonOut 阅读(883) 评论(0) 推荐(0)

2026年2月17日

LLM | 完全面向算法的 VeRL 代码阅读笔记

摘要：未完待续。阅读全文

posted @ 2026-02-17 23:08 MoonOut 阅读(142) 评论(0) 推荐(0)

LLM | VeRL 相关文档汇总

摘要：汇总并翻译了一些 VeRL 的文档。阅读全文

posted @ 2026-02-17 17:40 MoonOut 阅读(210) 评论(0) 推荐(0)

2026年2月13日

LLM | 常用的数学数据集：MATH、GSM8K、AIME24 等

摘要：提供了 MATH、GSM8K、AIME24 等常用数学数据集的基本信息和链接。阅读全文

posted @ 2026-02-13 13:13 MoonOut 阅读(1774) 评论(0) 推荐(0)

LLM | REINFORCE++：好像是近期的 LLM RL 新方法

摘要： REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”，并搭配稳定的 KL 估计方式，比 PPO 轻量级，比 GRPO 稳定和泛化性强。阅读全文

posted @ 2026-02-13 11:51 MoonOut 阅读(302) 评论(0) 推荐(0)

2026年2月3日

论文速读记录 | 2026.02

摘要： 2026.02 | 速读文章纪录阅读全文

posted @ 2026-02-03 08:50 MoonOut 阅读(113) 评论(0) 推荐(0)

2026年1月30日

如何传输本地大文件至 Linux 服务器

摘要： rsync -avzP --progress /本地/大文件.zip user@服务器IP:/目标/路径/ 阅读全文

posted @ 2026-01-30 13:34 MoonOut 阅读(274) 评论(0) 推荐(1)

2026年1月20日

LLM | 正在尝试使用 verl

摘要：主要参考官方文档，介绍了如何基于 verl 使用 RL 微调大模型。阅读全文

posted @ 2026-01-20 16:20 MoonOut 阅读(362) 评论(0) 推荐(0)

2026年1月10日

LLM | 正在尝试使用 LLaMA-Factory

摘要：主要参考知乎博客，介绍了如何基于 LLaMA-Factory 部署和 SFT 微调大模型。阅读全文

posted @ 2026-01-10 17:22 MoonOut 阅读(87) 评论(0) 推荐(0)

基于梯度组合的多任务 / 多目标学习

摘要：面对多任务 / 多目标学习中，可能相互冲突的梯度信号，现有方法通过加权、投影、统一符号等方法，调合这些梯度信号。阅读全文

posted @ 2026-01-10 17:17 MoonOut 阅读(1049) 评论(0) 推荐(1)

2026年1月7日

LLM | ARC-AGI：有趣的 benchmark

摘要： ARC-AGI benchmark 提供了基于视觉网格的谜题，它们是“对于人类简单、对于大模型困难”的问题。阅读全文

posted @ 2026-01-07 19:57 MoonOut 阅读(764) 评论(0) 推荐(2)

2026年1月6日

（已解决）代·理核心崩溃“failed to ■■■ core, logs are not available”

摘要：管理员打开 cmd，输入 netsh winsock reset，重启电脑就可以了。补档重传。阅读全文

posted @ 2026-01-06 15:48 MoonOut 阅读(29) 评论(0) 推荐(0)

2026年1月3日

LLM | multi-turn 任务下的 RL 微调：RAGEN, ArCHer, GiGPO, VinePPO

摘要：最近读了一些在多轮（multi-turn）任务上用 RL 微调 LLM 的文章，记录阅读笔记。阅读全文

posted @ 2026-01-03 16:54 MoonOut 阅读(343) 评论(0) 推荐(0)

2026年1月2日

Contrastive Learning 对比学习 | InfoNCE loss 与互信息的数学关联

摘要： InfoNCE loss 可以表示互信息的下界：I(X;Y) ≥ log N - L_InfoNCE 。阅读全文

posted @ 2026-01-02 20:07 MoonOut 阅读(1184) 评论(0) 推荐(0)

2026年1月1日

论文速读记录 | 2026.01

摘要： 2026.01 | 速读文章纪录阅读全文

posted @ 2026-01-01 22:08 MoonOut 阅读(135) 评论(0) 推荐(0)

2025年12月20日

论文速读记录 | 2025.12（2）

摘要： 2025.12 | 速读文章纪录 - 下半月阅读全文

posted @ 2025-12-20 23:30 MoonOut 阅读(159) 评论(0) 推荐(0)

2025年12月15日

PbRL · MARL | 近期 preference-based MARL 工作速读

摘要：简单看看近期的 Pb-MARL 工作。阅读全文

posted @ 2025-12-15 14:20 MoonOut 阅读(116) 评论(0) 推荐(0)

2025年12月13日

offline meta-RL | 近期工作速读记录

摘要： offline meta RL 近期工作的速读记录。阅读全文

posted @ 2025-12-13 17:36 MoonOut 阅读(879) 评论(0) 推荐(2)

2025年12月7日

offline meta-RL | 经典论文速读记录

摘要： offline meta RL 经典论文的速读记录。阅读全文

posted @ 2025-12-07 10:35 MoonOut 阅读(1204) 评论(0) 推荐(1)

2025年12月2日

论文速读记录 | 2025.12（1）

摘要： 2025.12 | 速读文章纪录 - 上半月阅读全文

posted @ 2025-12-02 23:13 MoonOut 阅读(163) 评论(0) 推荐(0)

2025年11月29日

PbRL | 近两年论文阅读的不完全总结

摘要：存档，博士生资格考试的 20 篇文献。阅读全文

posted @ 2025-11-29 15:04 MoonOut 阅读(1210) 评论(0) 推荐(2)

2025年11月22日

MORL | Envelope Q-Learning：有收敛性保证的 MORL 算法

摘要： EQL 将单目标的 bellman 算子拓展到多目标 RL 上，并复刻了 value iteration 的收敛性保证。阅读全文

posted @ 2025-11-22 21:18 MoonOut 阅读(1016) 评论(0) 推荐(1)

数据中心 + 事件驱动优化：面向数据中心绿色可靠运行的强化学习方法

摘要：贾庆山老师团队的事件驱动优化 + 数据中心工作。阅读全文

posted @ 2025-11-22 16:10 MoonOut 阅读(39) 评论(0) 推荐(0)

2025年11月2日

论文速读记录 | 2025.11

摘要： 2025.11 | 速读文章纪录阅读全文

posted @ 2025-11-02 12:25 MoonOut 阅读(174) 评论(0) 推荐(0)

2025年10月31日

Skill Discovery | RGSD：基于高质量参考轨迹，预训练 skill space

摘要： ① 用对比学习把参考轨迹的 embedding 尽可能拉远，② 使用 DIAYN reward 同时做模仿学习和 skill discovery。阅读全文

posted @ 2025-10-31 00:50 MoonOut 阅读(195) 评论(0) 推荐(1)

2025年10月8日

RL | 速读 IJCAI 2025 的强化学习论文

摘要：速读一下 IJCAI 2025 的 RL 相关论文。阅读全文

posted @ 2025-10-08 20:53 MoonOut 阅读(1298) 评论(4) 推荐(1)

2025年10月2日

论文速读记录 | 2025.10

摘要： 2025.10 | 速读文章纪录阅读全文

posted @ 2025-10-02 23:00 MoonOut 阅读(142) 评论(0) 推荐(0)

2025年9月2日

论文速读记录 | 2025.09

摘要： 2025.09 | 速读文章纪录阅读全文

posted @ 2025-09-02 14:16 MoonOut 阅读(124) 评论(0) 推荐(0)

2025年8月6日

论文速读记录 | 2025.08

摘要： 2025.08 | 速读文章纪录阅读全文

posted @ 2025-08-06 14:10 MoonOut 阅读(66) 评论(0) 推荐(0)

月出兮彩云归 🌙

公告