🍵 论文阅读 - 随笔分类(第3页) - MoonOut

offline RL | IQL：通过 sarsa 式 Q 更新避免 unseen actions

摘要：① 通过 (s,a,r,s',a') 更新 Q function，② 通过 Q 和 V 交替迭代，避免过拟合 s'~p(s'|a) 的随机好 s'，误以为 a 是好 action，③ 通过 AWR 从 advantage 提取 policy。阅读全文

posted @ 2023-11-25 20:12 MoonOut 阅读(1003) 评论(0) 推荐(0)

offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法

摘要：① 在 actor 最大化 Q advantage 时，纳入一个 behavior cloning loss； ② observation 归一化；③ 让 Q advantage 跟 behavior cloning 的 loss 可比。阅读全文

posted @ 2023-11-19 17:02 MoonOut 阅读(1101) 评论(0) 推荐(0)

off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

摘要：仅仅留下了一些印象，并没有看懂具体算法…… 如果需要重读这篇论文，会 refine 这篇阅读笔记的。阅读全文

posted @ 2023-11-13 20:40 MoonOut 阅读(608) 评论(0) 推荐(0)

PbRL · offline RL | OPRL：发现部分 D4RL tasks 不适合做 offline reward learning

摘要：发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。阅读全文

posted @ 2023-11-13 18:11 MoonOut 阅读(717) 评论(0) 推荐(0)

PbRL | SURF：使用半监督学习，对 labeled segment pair 进行数据增强

摘要：① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label；② 将 labeled segment pair 进行时序剪裁，得到更多数据增强的 labeled pair。阅读全文

posted @ 2023-11-11 20:16 MoonOut 阅读(440) 评论(0) 推荐(1)

PbRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

摘要：reward model 对某 (s,a) 的不确定性，由一系列 ensemble reward models 的输出结果方差的度量，直接乘一个超参数，作为 intrinsic reward 的一部分。阅读全文

posted @ 2023-11-10 17:43 MoonOut 阅读(583) 评论(0) 推荐(3)

PbRL | PEBBLE：通过 human preference 学习 reward model

摘要：① 使用熵 intrinsic reward 的 agent pre-training，② 选择尽可能 informative 的 queries 去获取 preference，③ 使用更新后的 reward model 对 replay buffer 进行 relabel。阅读全文

posted @ 2023-11-09 20:40 MoonOut 阅读(618) 评论(0) 推荐(0)

offline RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound

摘要：把 OOD 的 Q 函数值拉低，ID 的 Q 函数值拉高，因此倾向于选择原来数据集里有的 ID 的 action。阅读全文

posted @ 2023-11-07 15:12 MoonOut 阅读(1244) 评论(0) 推荐(3)

关于传统迁移学习的一点概念

摘要：感谢学姐的口述讲授 🌹 （学姐貌似很厉害，发了很多 ccf-a）阅读全文

posted @ 2023-09-07 21:10 MoonOut 阅读(101) 评论(0) 推荐(0)

时空图预测的方法论，以及 diffusion model 基本概念

摘要：时空图预测：构造 0 ~ t-1 的 t 个图，然后把 GNN 操作、时序预测操作一通叠加。diffusion：一种加噪声的训练方法。感谢善良的同学 🙏🏻 阅读全文

posted @ 2023-06-10 20:55 MoonOut 阅读(336) 评论(0) 推荐(0)

传说中 PUE 预测精度高达 0.005 的工作

摘要：① 用 ML 得到 PUE 模型，② 对各个控制变量做灵敏度分析，③ 试图这样减小 PUE：在腾讯改了一个水流量参数，果然获得一点能效提升。阅读全文

posted @ 2023-06-10 19:38 MoonOut 阅读(66) 评论(0) 推荐(0)

用 Gaussian Process 建模 state-action 空间相关性，加速 Multi-Fidelity RL

摘要：基于 14 年的 MFRL 论文，利用相邻 state-action 的空间相关性来加速学习，用 gaussian processes 建模 env dynamics（model-based）/ Q function（model-free），得到了两种跟 14 年 MFRL 很相似的算法。阅读全文

posted @ 2023-04-16 13:21 MoonOut 阅读(176) 评论(0) 推荐(0)

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

摘要：RL episode 长度 = 1，先用 PPO 在 low-fidelity env 上学；维护一个 reward 的方差，如果方差足够小，就从 low-fidelity env 迁移到 high-fidelity env。阅读全文

posted @ 2023-04-15 19:51 MoonOut 阅读(58) 评论(0) 推荐(0)

在有限 computational budget 下，借助 low-fidelity 模型提高精度

摘要：motivation：一些预算用于训 low-fidelity model，剩下预算用于 Monte Carlo 模拟，以得到结果。数学证明：近似 + 递推或迭代或归纳法。总结：目前看来，对我的工作意义不大。阅读全文

posted @ 2023-04-15 18:56 MoonOut 阅读(208) 评论(0) 推荐(0)

RL 的探索策略 | Exploration for RL

摘要：motivation：鼓励探索。主要方法：给 agent 不熟悉的 state 一个 intrinsic reward。关键问题：如何判断 agent 对某个 state 的熟悉程度。阅读全文

posted @ 2023-04-06 21:58 MoonOut 阅读(981) 评论(0) 推荐(0)

Multi-Fidelity RL | 多精度 simulator 中的 RL：一篇 14 年 ICRA 的古早论文

摘要：Reinforcement learning with multi-fidelity simulators，是 14 年的 ICRA 会议的论文。师兄说是 robotics 顶会，但中稿率蛮高的。阅读全文

posted @ 2023-04-03 17:26 MoonOut 阅读(352) 评论(0) 推荐(1)

用线性二次模型建模大型数据中心，基于 MPC 进行冷却控制

摘要：啊…… 感觉它能 work 还是加了很多 tricks 的… 阅读全文

posted @ 2023-03-06 17:44 MoonOut 阅读(374) 评论(0) 推荐(0)

数据中心冷却的 safe-RL，基于对 action 的事后修正技术

摘要：motivation：减少 RL 试错过程中的 unsafe behavior。技术路线：先模仿学习，再在 on-line learning 时强行改可能 unsafe 的 action，即 post-hoc rectification。阅读全文

posted @ 2023-03-05 13:13 MoonOut 阅读(165) 评论(0) 推荐(0)

一个量子速读法（划掉）的存档

摘要：当你完全不想锻炼英语阅读能力，只想快速得知论文内容…… 阅读全文

posted @ 2023-03-04 12:32 MoonOut 阅读(49) 评论(0) 推荐(0)

citespace 文献计量工具初探

摘要：有用的教程与使用经验。阅读全文

posted @ 2023-02-06 14:48 MoonOut 阅读(104) 评论(0) 推荐(0)

月出兮彩云归 🌙

随笔分类 - 🍵 论文阅读

公告