摘要:        
一、强化学习分类 1、基于价值:从价值函数中学习,Q-Learning,Sarsa 2、基于策略:从策略函数中学习,Policy Gradient 3、基于模型:从环境的模型中学习,不需要和环境交互,类似于监督学习,有两个模型 状态转化预测模型:输入当前状态s和动作a,预测下一个状态s' 奖励预测模    阅读全文
posted @ 2025-08-26 17:53
牧云文仔
阅读(9)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、概念 1、异步优势演员评论家算法(Asynchronous Advanced Actor Critic,A3C),解决Actor Critic很难收敛的问题,加速强化学习 2、创建多个并行环境,并行计算,然后合并学习到的结果,避免了经验回放相关性太强的问题 3、使用python多线程,提供了通用    阅读全文
posted @ 2025-08-26 13:42
牧云文仔
阅读(20)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、Nature DQN 1、DQN缺点:只有一个神经网络,既选择动作,又估计价值,估计值容易过高;不能保证Q网络收敛,Q网络模型效果差 2、Nature DQN两个Q神经网络,在线网络用于动作选择,目标网络用于估计Q值,减少目标Q值计算和要更新Q网络参数之间的依赖 3、这两个神经网络结构是一样的     阅读全文
posted @ 2025-08-26 13:34
牧云文仔
阅读(24)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号