随笔分类 - papers
摘要:针对AC算法不能有效的使用PER,证明actor不能使用PER更好的训练,提出改进,使用一个全新的优先级结构tree,并与critic共享部分训练集,结合LAP的结论,使得AC+PER效果更优
阅读全文
摘要:事件表分层抽样(SSET),将ER缓冲区划分为事件表,每个事件表捕获最优行为的重要子序列。
阅读全文
摘要:利用时序卷积+注意力机制弥补RNN的不足
阅读全文
摘要:利用循环神经网络来进行先验知识的学习,进而优化RL model
阅读全文
摘要:利用第一次梯度对第二次梯度进行提升。
阅读全文
摘要:元学习系统(监督+从属)扩展于RL设置
阅读全文
摘要:利用梯度下降进行元学习
阅读全文