LLM - 随笔分类 - initial_h

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

摘要：发表时间：2024 文章要点：文章对LLM增强强化学习（LLM-enhanced RL）的现有文献进行了总结。在agent-environment交互的范式下，讨论LLM对RL算法的帮助。文章先给出LLM-enhanced RL的概念：the methods that utilize the mu 阅读全文

posted @ 2024-05-23 13:38 initial_h 阅读(1077) 评论(0) 推荐(0)

RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

摘要：发表时间：2024(ICLR 2024) 文章要点：文章提出Retroformer,用策略梯度的方式调优prompt，更好的利用环境的reward。大体思路是学习一个retrospective LLM，将之前的轨迹和得分作为输入，得到一个新的prompt，这个prompt综合分析了之前的经验，从而提阅读全文

posted @ 2024-05-13 23:56 initial_h 阅读(276) 评论(0) 推荐(0)

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

摘要：发表时间：2023(ICLR 2023) 文章要点：文章提出一个简单有效的ReAct框架，将reasoning和action结合，在交互式的环境上进行测试，取得了很好的效果。其中reasoning作为推理模块，帮助模型归纳，跟踪和更新动作规划，acting和环境交互收集更多信息（reasoning 阅读全文

posted @ 2024-05-04 23:05 initial_h 阅读(918) 评论(2) 推荐(0)

Reflexion: Language Agents with Verbal Reinforcement Learning

摘要：发表时间：2023(NeurIPS 2023) 文章要点：文章提出Reflexion框架，通过交互的方式获得反馈，并变成细致的语言feedback的形式作为下一轮的prompt，以此强化language agents的能力，同时避免了更新大模型的参数。这样的好处有1）轻量，不需要finetune L 阅读全文

posted @ 2024-04-30 11:24 initial_h 阅读(915) 评论(0) 推荐(0)

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

摘要：发表时间： 2023 (NeurIPS 2023) 文章要点：文章提出一个evolvable LLM-based agent框架REMEMBERER，主要思路是给大模型加一个experience memory存储过去的经验，然后用Q-learning的方式计算Q值，再根据任务相似度采样轨迹和对应的阅读全文

posted @ 2024-04-24 13:48 initial_h 阅读(313) 评论(0) 推荐(0)

initial_h

https://github.com/initial-h

随笔分类 - LLM

公告