RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

发表时间：2024(ICLR 2024)
文章要点：文章提出Retroformer,用策略梯度的方式调优prompt，更好的利用环境的reward。大体思路是学习一个retrospective LLM，将之前的轨迹和得分作为输入，得到一个新的prompt，这个prompt综合分析了之前的经验，从而提供一个更好的prompt。然后不断和环境交互，用PPO训练retrospective LLM。
具体的，整个架构包括Actor Model，Retrospective Model和Memory Module。
Actor Model是一个固定参数的LLM，用来输入prompt生成动作。
Retrospective Model用来根据之前的经验生成新的prompt（Its primary function is to produce self-reflections, offering valuable feedback for diagnosing a possible reason for prior failure and devising a new, concise, high-level plan that aims to mitigate same failure.）。
Memory Module存储长短时记忆。其中Short-term memory指当前episode，Long-term memory指Retrospective Model输出的总结了之前的失败经验的prompt。
Retrospective Model的训练如下图所示，每次生成多条轨迹并打分，再用PPO训练更新参数。

总结：还是有道理的，虽然还是在做prompt，不过总算看到一篇真正用了RL的了。
疑问：无。

posted @ 2024-05-13 23:56 initial_h 阅读(227) 评论(0) 收藏举报

initial_h

https://github.com/initial-h

RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

公告