摘要: 记录一下最近复现 PPO 的过程…… 阅读全文
posted @ 2024-11-21 16:29 MoonOut 阅读(2232) 评论(0) 推荐(1)
摘要: Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。 阅读全文
posted @ 2024-11-20 15:16 MoonOut 阅读(283) 评论(0) 推荐(0)
摘要: 需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。 阅读全文
posted @ 2024-11-11 22:53 MoonOut 阅读(772) 评论(0) 推荐(0)
摘要: 让 GPT 生成 UML 图的 plantUML 代码,然后在 plantUML 网站在线绘制。 阅读全文
posted @ 2024-10-15 19:22 MoonOut 阅读(858) 评论(0) 推荐(0)
摘要: 删除 git 目录:rm -rf .git 阅读全文
posted @ 2024-09-04 16:41 MoonOut 阅读(142) 评论(0) 推荐(0)
摘要: torch.set_num_threads(8) 阅读全文
posted @ 2024-08-11 18:17 MoonOut 阅读(157) 评论(0) 推荐(0)
摘要: 在命令行执行 unset LD_PRELOAD 阅读全文
posted @ 2024-08-11 18:13 MoonOut 阅读(341) 评论(0) 推荐(0)
摘要: 官方教程:https://gist.github.com/saratrajput/60b1310fe9d9df664f9983b38b50d5da 阅读全文
posted @ 2024-07-31 17:57 MoonOut 阅读(176) 评论(0) 推荐(0)
摘要: ssh-keygen -t rsa,然后将 .ssh/id_rsa.pub 中的内容,复制到 New SSH key 的框里。 阅读全文
posted @ 2024-07-31 16:31 MoonOut 阅读(77) 评论(0) 推荐(0)
摘要: conda env export -n old_env > old_env_conda.yml , conda env create -n new_env -f old_env_conda.yml 阅读全文
posted @ 2024-07-31 11:40 MoonOut 阅读(717) 评论(0) 推荐(0)
摘要: Google 搜索官方教程 + 换 tuna 源。 阅读全文
posted @ 2024-07-31 11:38 MoonOut 阅读(3008) 评论(0) 推荐(0)
摘要: 在远程创建 ~/.ssh/authorized_keys,把本地 .ssh/id_rsa.pub 的内容追加到 authorized_keys 里。 阅读全文
posted @ 2024-07-31 10:46 MoonOut 阅读(59) 评论(0) 推荐(0)
摘要: ① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。 阅读全文
posted @ 2024-07-25 16:10 MoonOut 阅读(188) 评论(0) 推荐(0)
摘要: D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q) 阅读全文
posted @ 2024-07-25 12:35 MoonOut 阅读(362) 评论(0) 推荐(0)
摘要: ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。 阅读全文
posted @ 2024-06-23 18:10 MoonOut 阅读(1939) 评论(0) 推荐(1)
摘要: 整理并发布本科四年的课程资料。 阅读全文
posted @ 2024-06-23 16:50 MoonOut 阅读(167) 评论(1) 推荐(0)
摘要: 使用 df.loc[len(df)] = {'key1': 123, 'key2': 234} 阅读全文
posted @ 2024-06-23 15:39 MoonOut 阅读(454) 评论(0) 推荐(0)
摘要: 电脑端:在同一个局域网下 + 共享文件夹;手机端:文件 app 连接服务器 + 照片 保存到文件。 阅读全文
posted @ 2024-06-12 11:19 MoonOut 阅读(910) 评论(0) 推荐(0)
摘要: 简单看了一下三大会近期的 Multi-objective RL 工作。 阅读全文
posted @ 2024-05-28 22:31 MoonOut 阅读(1007) 评论(1) 推荐(1)
摘要: 【ps -ef | grep '[w]andb'】【pkill -f wandb】 阅读全文
posted @ 2024-04-22 11:31 MoonOut 阅读(807) 评论(0) 推荐(0)
摘要: 在某些契机下,制作了构想很久的个人 icon。 阅读全文
posted @ 2024-03-21 16:55 MoonOut 阅读(42) 评论(0) 推荐(0)
摘要: 如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。 阅读全文
posted @ 2024-03-21 16:46 MoonOut 阅读(356) 评论(0) 推荐(0)
摘要: ① medium:中等策略。② random:随机策略。③ medium-replay:训到中等策略的整个 replay buffer。④ medium-expert:等量混合专家数据和次优数据(次优或随机策略)。 阅读全文
posted @ 2024-03-09 17:36 MoonOut 阅读(2231) 评论(0) 推荐(0)
摘要: 主要 trick:① 更新 A 时把 B stop-gradient,② 在 encoder 后添加神秘的 MLP 层。 阅读全文
posted @ 2024-03-07 20:40 MoonOut 阅读(1521) 评论(0) 推荐(0)
摘要: ① 定义 non-Markovian reward 的输入是 trajectory,② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。 阅读全文
posted @ 2024-03-06 12:57 MoonOut 阅读(344) 评论(1) 推荐(0)
摘要: Act as a reinforcement learning expert. Please do a review for representation learning in RL. Should focus on how to map a trajectory to a latent. 阅读全文
posted @ 2024-02-29 16:10 MoonOut 阅读(262) 评论(1) 推荐(0)
摘要: 将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。 阅读全文
posted @ 2024-02-27 21:38 MoonOut 阅读(132) 评论(0) 推荐(0)
摘要: 将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。 阅读全文
posted @ 2024-02-27 21:08 MoonOut 阅读(378) 评论(0) 推荐(0)
摘要: ① sequence: {s, a, R, s, ...};② 在 s 的 decode 结果上加 MLP 预测 action;③ 给定 return-to-go 作为某种 hindsight。 阅读全文
posted @ 2024-02-27 20:14 MoonOut 阅读(882) 评论(0) 推荐(2)
摘要: 画图代码的存档。 阅读全文
posted @ 2024-02-20 11:29 MoonOut 阅读(582) 评论(0) 推荐(0)
摘要: Proportional-Integral-Derivative(PID),比例-积分-微分控制。 阅读全文
posted @ 2024-02-17 10:55 MoonOut 阅读(509) 评论(0) 推荐(0)
摘要: ① unlearn:保守 offline RL 训出的 Q function 太小,被 online 的真 reward 量级压制,导致 policy 初始化破坏,性能下降。② 校准:魔改 CQL 惩罚,令 Q_θ ≥ Q_β。 阅读全文
posted @ 2024-02-07 20:14 MoonOut 阅读(228) 评论(0) 推荐(0)
摘要: 在 offline + online buffer 的采样概率,应当与 d^{on}(s,a) / d^{off}(s,a) 成正比(importance sampling)。 阅读全文
posted @ 2024-02-07 14:08 MoonOut 阅读(393) 评论(0) 推荐(1)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 11:02 MoonOut 阅读(651) 评论(0) 推荐(0)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:47 MoonOut 阅读(105) 评论(0) 推荐(0)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:37 MoonOut 阅读(81) 评论(0) 推荐(1)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:37 MoonOut 阅读(59) 评论(0) 推荐(0)
摘要: 采用 policy iteration 框架,① policy evaluation 普通更新 Q function,② policy update 使用 AWR 式更新,③ 前两步的采样数据集都是 offline + online。 阅读全文
posted @ 2024-02-05 21:50 MoonOut 阅读(260) 评论(0) 推荐(1)
摘要: 对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。 阅读全文
posted @ 2024-01-21 11:26 MoonOut 阅读(171) 评论(0) 推荐(0)
摘要: OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。 阅读全文
posted @ 2024-01-21 11:17 MoonOut 阅读(629) 评论(0) 推荐(0)