强化学习算法:soft q-learning —— 《Reinforcement Learning with Deep Energy-Based Policies》
相关:
https://arxiv.org/pdf/1702.08165

首先,要知道soft-learning是一个很老的算法,其实就是在q-learning的基础上加了个soft变换,然后在探索阶段不使用epsilon-greedy探索,而是使用soft-q作为探索方法,而在训练参数时候使用的update方法依然是q-learning的TD方法;
然后,要知道本文的soft q-learning与之前的传统的soft q-learning的不同,就像刚提到的,之前的原始的soft q-learning只能解决有限动作的问题,并且基本用于处理基于表格的reinforcement learning的问题,而本文则在此基础上经过改进然后可以在连续动作空间进行解决,并且可以很好的适用于神经网络表示的强化学习问题中。
    本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注处,如有侵权请与博主联系。
如果未特殊标注则为原创,遵循 CC 4.0 BY-SA 版权协议。
posted on 2024-12-14 15:32 Angry_Panda 阅读(90) 评论(0) 收藏 举报
 
                    
                     
                    
                 
                    
                 
                
            
         
         
 浙公网安备 33010602011771号
浙公网安备 33010602011771号