摘要:        
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ABSTRACT SAC是用于连续动作设置的最先进的RL算法,不适用于离散动作设置。但是,许多重要的设置都涉及离散动作,因此,在这里我们导出了适用于离散动作设置的SAC算法的替代版本。然后,我们证明了,即使没有任何超参数调整,它在Atar    阅读全文
        
            posted @ 2020-11-14 15:31
穷酸秀才大草包
阅读(1685)
评论(0)
推荐(0)
        
     
                    
                     
                    
                 
                    
                
 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号