随笔分类 -  🍵 论文阅读

摘要:① 通过 (s,a,r,s',a') 更新 Q function,② 通过 Q 和 V 交替迭代,避免过拟合 s'~p(s'|a) 的随机好 s',误以为 a 是好 action,③ 通过 AWR 从 advantage 提取 policy。 阅读全文
posted @ 2023-11-25 20:12 MoonOut 阅读(1003) 评论(0) 推荐(0)
摘要:① 在 actor 最大化 Q advantage 时,纳入一个 behavior cloning loss; ② observation 归一化;③ 让 Q advantage 跟 behavior cloning 的 loss 可比。 阅读全文
posted @ 2023-11-19 17:02 MoonOut 阅读(1101) 评论(0) 推荐(0)
摘要:仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。 阅读全文
posted @ 2023-11-13 20:40 MoonOut 阅读(608) 评论(0) 推荐(0)
摘要:发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。 阅读全文
posted @ 2023-11-13 18:11 MoonOut 阅读(717) 评论(0) 推荐(0)
摘要:① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label;② 将 labeled segment pair 进行时序剪裁,得到更多数据增强的 labeled pair。 阅读全文
posted @ 2023-11-11 20:16 MoonOut 阅读(440) 评论(0) 推荐(1)
摘要:reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。 阅读全文
posted @ 2023-11-10 17:43 MoonOut 阅读(583) 评论(0) 推荐(3)
摘要:① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。 阅读全文
posted @ 2023-11-09 20:40 MoonOut 阅读(618) 评论(0) 推荐(0)
摘要:把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。 阅读全文
posted @ 2023-11-07 15:12 MoonOut 阅读(1244) 评论(0) 推荐(3)
摘要:感谢学姐的口述讲授 🌹 (学姐貌似很厉害,发了很多 ccf-a) 阅读全文
posted @ 2023-09-07 21:10 MoonOut 阅读(101) 评论(0) 推荐(0)
摘要:时空图预测:构造 0 ~ t-1 的 t 个图,然后把 GNN 操作、时序预测操作一通叠加。diffusion:一种加噪声的训练方法。感谢善良的同学 🙏🏻 阅读全文
posted @ 2023-06-10 20:55 MoonOut 阅读(336) 评论(0) 推荐(0)
摘要:① 用 ML 得到 PUE 模型,② 对各个控制变量做灵敏度分析,③ 试图这样减小 PUE:在腾讯改了一个水流量参数,果然获得一点能效提升。 阅读全文
posted @ 2023-06-10 19:38 MoonOut 阅读(66) 评论(0) 推荐(0)
摘要:基于 14 年的 MFRL 论文,利用相邻 state-action 的空间相关性来加速学习,用 gaussian processes 建模 env dynamics(model-based)/ Q function(model-free),得到了两种跟 14 年 MFRL 很相似的算法。 阅读全文
posted @ 2023-04-16 13:21 MoonOut 阅读(176) 评论(0) 推荐(0)
摘要:RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。 阅读全文
posted @ 2023-04-15 19:51 MoonOut 阅读(58) 评论(0) 推荐(0)
摘要:motivation:一些预算用于训 low-fidelity model,剩下预算用于 Monte Carlo 模拟,以得到结果。数学证明:近似 + 递推或迭代或归纳法。总结:目前看来,对我的工作意义不大。 阅读全文
posted @ 2023-04-15 18:56 MoonOut 阅读(208) 评论(0) 推荐(0)
摘要:motivation:鼓励探索。主要方法:给 agent 不熟悉的 state 一个 intrinsic reward。关键问题:如何判断 agent 对某个 state 的熟悉程度。 阅读全文
posted @ 2023-04-06 21:58 MoonOut 阅读(981) 评论(0) 推荐(0)
摘要:Reinforcement learning with multi-fidelity simulators,是 14 年的 ICRA 会议的论文。师兄说是 robotics 顶会,但中稿率蛮高的。 阅读全文
posted @ 2023-04-03 17:26 MoonOut 阅读(352) 评论(0) 推荐(1)
摘要:啊…… 感觉它能 work 还是加了很多 tricks 的… 阅读全文
posted @ 2023-03-06 17:44 MoonOut 阅读(374) 评论(0) 推荐(0)
摘要:motivation:减少 RL 试错过程中的 unsafe behavior。技术路线:先模仿学习,再在 on-line learning 时强行改可能 unsafe 的 action,即 post-hoc rectification。 阅读全文
posted @ 2023-03-05 13:13 MoonOut 阅读(165) 评论(0) 推荐(0)
摘要:当你完全不想锻炼英语阅读能力,只想快速得知论文内容…… 阅读全文
posted @ 2023-03-04 12:32 MoonOut 阅读(49) 评论(0) 推荐(0)
摘要:有用的教程与使用经验。 阅读全文
posted @ 2023-02-06 14:48 MoonOut 阅读(104) 评论(0) 推荐(0)