Q-Learning

Q-Learning是RL算法：

我们定义初始 epsilon ɛ = 1.0：

在训练开始时，由于 ɛ 非常高，所以进行探索（exploration ）的概率会很大，所以大多数时候，我们会探索。但随着训练的进行，因此我们的Q表在估计中变得越来越好，我们逐渐降低ε值，因为我们需要的探索越来越少，更多的开发。

更新 $Q (S t ， A t)$ :

_TD目标：

我们在采取行动后获得奖励 $R T+1$
为了获得最佳的下一个状态操作对值，我们使用贪婪策略来选择下一个最佳操作。（请注意，这不是一个 epsilon 贪婪策略，它将始终采取具有最高状态操作值的操作。）

Q Learning is an off-policy algorithm.（Q-Learning是一种非政策算法）

using a different policy for acting (inference) and updating (training).（使用不同的策略进行操作（推理）和更新（训练））

using the same policy for acting and updating.（使用相同的策略操作和更新。）

posted @ 2023-03-13 22:13 阿Qi早起了吗阅读(246) 评论(0) 收藏举报

刷新页面返回顶部