摘要:发表时间:2024 文章要点:文章对LLM增强强化学习(LLM-enhanced RL)的现有文献进行了总结。在agent-environment交互的范式下,讨论LLM对RL算法的帮助。 文章先给出LLM-enhanced RL的概念:the methods that utilize the mu
阅读全文
摘要:发表时间:2016(ICLR 2016) 文章要点:这篇文章提出了很经典的experience replay的方法PER,通过temporal-difference (TD) error来给采样赋权重(Sequences associated with rewards appear to be re
阅读全文
摘要:**发表时间:**2021 (NeurIPS 2021) **文章要点:**理论表明,更高的hindsight TD error,更加on policy,以及更准的target Q value的样本应该有更高的采样权重(The theory suggests that data with highe
阅读全文