会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
initial_h
https://github.com/initial-h
博客园
首页
新随笔
管理
随笔分类 -
LLM
Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods
摘要:发表时间:2024 文章要点:文章对LLM增强强化学习(LLM-enhanced RL)的现有文献进行了总结。在agent-environment交互的范式下,讨论LLM对RL算法的帮助。 文章先给出LLM-enhanced RL的概念:the methods that utilize the mu
阅读全文
posted @
2024-05-23 13:38
initial_h
阅读(949)
评论(0)
推荐(0)
RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION
摘要:发表时间:2024(ICLR 2024) 文章要点:文章提出Retroformer,用策略梯度的方式调优prompt,更好的利用环境的reward。大体思路是学习一个retrospective LLM,将之前的轨迹和得分作为输入,得到一个新的prompt,这个prompt综合分析了之前的经验,从而提
阅读全文
posted @
2024-05-13 23:56
initial_h
阅读(227)
评论(0)
推荐(0)
REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
摘要:发表时间:2023(ICLR 2023) 文章要点:文章提出一个简单有效的ReAct框架,将reasoning和action结合,在交互式的环境上进行测试,取得了很好的效果。其中reasoning作为推理模块,帮助模型归纳,跟踪和更新动作规划,acting和环境交互收集更多信息(reasoning
阅读全文
posted @
2024-05-04 23:05
initial_h
阅读(801)
评论(2)
推荐(0)
Reflexion: Language Agents with Verbal Reinforcement Learning
摘要:发表时间:2023(NeurIPS 2023) 文章要点:文章提出Reflexion框架,通过交互的方式获得反馈,并变成细致的语言feedback的形式作为下一轮的prompt,以此强化language agents的能力,同时避免了更新大模型的参数。这样的好处有1)轻量,不需要finetune L
阅读全文
posted @
2024-04-30 11:24
initial_h
阅读(861)
评论(0)
推荐(0)
Large Language Models Are Semi-Parametric Reinforcement Learning Agents
摘要:发表时间: 2023 (NeurIPS 2023) 文章要点: 文章提出一个evolvable LLM-based agent框架REMEMBERER,主要思路是给大模型加一个experience memory存储过去的经验,然后用Q-learning的方式计算Q值,再根据任务相似度采样轨迹和对应的
阅读全文
posted @
2024-04-24 13:48
initial_h
阅读(228)
评论(0)
推荐(0)
公告