摘要:
概率密度函数 期望(expect) state s action a agent policy Π(a|s) reward r state transition p(s'|s,a) return(cumulative future reward 未来累计回报) discounted return(γ 阅读全文
摘要:
Deep Q-Learning 产生和更新Q表在大状态空间环境中可能变得无效 Deep Q-Learning使用了一个神经网络,它获取一个状态,并基于该状态近似每个动作的Q-值,而不是使用Q-表。我们将使用RL Zoo训练它玩太空入侵者和其他雅达利环境,这是一个使用稳定基线的RL训练框架,提供训练脚 阅读全文