论文速读记录 | 2025.08
Guiding Pretraining in Reinforcement Learning with Large Language Models
- arxiv:http://arxiv.org/abs/2302.06692
- GitHub:https://github.com/yuqingd/ellm
- 来源:[mask],ICML 2023。
主要内容:
- 想做的事情似乎非常简单:
- 为了鼓励 agent 探索,在 external reward \(r\) 的同时引入一个 intrinsic reward \(r_\text{int}\),或直接让 intrinsic reward 替代 \(r\)。\(r_\text{int}\) 定义为 goal conditioned 的形式,\(r_\text{int}(o, a, o')=\mathbb E_{g\sim G}r_\text{int}(o,a,o'|g)\)。因为 \(r_\text{int}\) 是用来鼓励探索的,所以问题变成了,如何采样多样化的、合理 符合常识的、人类关心的目标 g。
- 这篇工作(Exploring with LLMs,ELLM)让 LLM 来生成目标 g,具体的,先给 LLM 输入当前的状态一句描述(似乎通过 oracle 得到),然后让 LLM 生成一个值得被完成的目标 list。然后,对于当前 episode 里的每一个 state,使用 Sentence-BERT 计算 相似度[state 一句描述, LLM 生成的目标],如果相似度对某个目标超过一个阈值,则认为 agent 完成了这个目标,在这个 episode 里,就不会再重复奖励这个目标了。
- 故事:为了在实践中掌握复杂的任务,RL agent 可能需要在没有外部定义的奖励的情况下学习一些行为。它们可以基于新颖性、惊喜、不确定性或预测错误 来探索,但是并非所有新奇或不可预测的东西都是有用的,与任何对人类有意义的目标相对应的行为才是有用的。

浙公网安备 33010602011771号