会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
initial_h
https://github.com/initial-h
博客园
首页
新随笔
管理
2024年4月24日
Large Language Models Are Semi-Parametric Reinforcement Learning Agents
摘要: 发表时间: 2023 (NeurIPS 2023) 文章要点: 文章提出一个evolvable LLM-based agent框架REMEMBERER,主要思路是给大模型加一个experience memory存储过去的经验,然后用Q-learning的方式计算Q值,再根据任务相似度采样轨迹和对应的
阅读全文
posted @ 2024-04-24 13:48 initial_h
阅读(1)
评论(0)
推荐(0)
编辑
2024年3月4日
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems
摘要: 发表时间:2020 文章要点:这篇文章主要介绍当前offline RL的研究进展,可能的问题以及一些解决方法。 作者先介绍了强化学习的准备知识,比如policy gradients,Approximate dynamic programming,Actor-critic algorithms,Mod
阅读全文
posted @ 2024-03-04 10:14 initial_h
阅读(13)
评论(0)
推荐(0)
编辑
2024年3月1日
Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience
摘要: 发表时间:2021(IEEE Transactions on Neural Networks and Learning Systems) 文章要点:这篇文章提出一个新的experience replay的方法,improved SAC (ISAC)。大概思路是先将replay buffer里面好的e
阅读全文
posted @ 2024-03-01 03:22 initial_h
阅读(16)
评论(0)
推荐(0)
编辑
2024年2月24日
State Distribution-aware Sampling for Deep Q-learning
摘要: 发表时间:2018(Neural Processing Letters 2019) 文章要点:这篇文章认为之前的experience replay的方法比如PER没有将transition的分布情况考虑在内,于是提出一个新的experience replay的方法,将occurrence frequ
阅读全文
posted @ 2024-02-24 01:05 initial_h
阅读(7)
评论(0)
推荐(0)
编辑
2024年2月17日
Large Batch Experience Replay
摘要: 发表时间:2021(ICML 2022) 文章要点:这篇文章把experience replay看做一个通过importance sampling来估计梯度的问题,从理论上推导经验回放的最优采样分布,然后提出LaBER (Large Batch Experience Replay)算法来近似这个采样
阅读全文
posted @ 2024-02-17 00:50 initial_h
阅读(12)
评论(0)
推荐(0)
编辑
2024年2月14日
Prioritized Experience Replay
摘要: 发表时间:2016(ICLR 2016) 文章要点:这篇文章提出了很经典的experience replay的方法PER,通过temporal-difference (TD) error来给采样赋权重(Sequences associated with rewards appear to be re
阅读全文
posted @ 2024-02-14 08:29 initial_h
阅读(9)
评论(0)
推荐(0)
编辑
2024年2月11日
Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update
摘要: 发表时间:2019 (NeurIPS 2019) 文章要点:这篇文章提出Episodic Backward Update (EBU)算法,采样一整条轨迹,然后从后往前依次更新做experience replay,这种方法对稀疏和延迟回报的环境有很好的效果(allows sparse and dela
阅读全文
posted @ 2024-02-11 02:47 initial_h
阅读(12)
评论(0)
推荐(0)
编辑
2023年8月13日
Experience Replay with Likelihood-free Importance Weights
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202308/1428973-20230813231501149-700899538.png) **发表时间:**2020 **文章要点:**这篇文章提出LFIW算法用likelihood作为experienc
阅读全文
posted @ 2023-08-13 23:20 initial_h
阅读(40)
评论(0)
推荐(0)
编辑
2023年8月12日
Striving for Simplicity and Performance in Off-Policy DRL: Output Normalization and Non-Uniform Sampling
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202308/1428973-20230812075327194-1111056360.png) **发表时间:**2020(ICML 2020) **文章要点:**这篇文章基于SAC做简单并且有效的改进来提升
阅读全文
posted @ 2023-08-12 08:00 initial_h
阅读(26)
评论(0)
推荐(0)
编辑
2023年7月31日
Experience Replay Optimization
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230731085957589-2046683860.png) **发表时间:**2019 (IJCAI 2019) **文章要点:**这篇文章提出experience rep
阅读全文
posted @ 2023-07-31 09:06 initial_h
阅读(16)
评论(0)
推荐(0)
编辑
2023年7月29日
Improved deep reinforcement learning for robotics through distribution-based experience retention
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230729080850680-1663030080.png) **发表时间:**2016(IROS 2016) **文章要点:**这篇文章提出了experience repl
阅读全文
posted @ 2023-07-29 08:26 initial_h
阅读(7)
评论(0)
推荐(0)
编辑
2023年7月27日
The importance of experience replay database composition in deep reinforcement learning
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230727110633815-1407402877.png) **发表时间:**2015(Deep Reinforcement Learning Workshop, NIPS
阅读全文
posted @ 2023-07-27 11:12 initial_h
阅读(10)
评论(0)
推荐(0)
编辑
2023年7月25日
Selective Experience Replay for Lifelong Learning
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230725234343269-1373726308.png) **发表时间:**2018(AAAI 2018) **文章要点:**这篇文章想解决强化学习在学多个任务时候的遗忘
阅读全文
posted @ 2023-07-25 23:48 initial_h
阅读(39)
评论(0)
推荐(0)
编辑
2023年7月17日
Reverb: A Framework For Experience Replay
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230717102339025-699657308.png) **发表时间:**2021 **文章要点:**这篇文章主要是设计了一个用来做experience replay的框
阅读全文
posted @ 2023-07-17 10:25 initial_h
阅读(9)
评论(0)
推荐(0)
编辑
2023年7月13日
TOPOLOGICAL EXPERIENCE REPLAY
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230713232535617-402383287.png) **发表时间:**2022(ICLR 2022) **文章要点:**这篇文章指出根据TD error来采样是低效的
阅读全文
posted @ 2023-07-13 23:30 initial_h
阅读(17)
评论(0)
推荐(0)
编辑
下一页
公告