强化学习算法:soft q-learning —— 《Reinforcement Learning with Deep Energy-Based Policies》

相关:

https://arxiv.org/pdf/1702.08165



image



首先,要知道soft-learning是一个很老的算法,其实就是在q-learning的基础上加了个soft变换,然后在探索阶段不使用epsilon-greedy探索,而是使用soft-q作为探索方法,而在训练参数时候使用的update方法依然是q-learning的TD方法;

然后,要知道本文的soft q-learning与之前的传统的soft q-learning的不同,就像刚提到的,之前的原始的soft q-learning只能解决有限动作的问题,并且基本用于处理基于表格的reinforcement learning的问题,而本文则在此基础上经过改进然后可以在连续动作空间进行解决,并且可以很好的适用于神经网络表示的强化学习问题中。









posted on 2024-12-14 15:32  Angry_Panda  阅读(90)  评论(0)    收藏  举报

导航