• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
SilentSamsara
博客园    首页    新随笔    联系   管理    订阅  订阅

论文阅读-2021.11.06

论文阅读-2021.11.06

Backward Q-learning: The combination of Sarsa algorithm and Q-learning

自适应Q-learning

算法描述

  • 初始化Q表,设置 \(TH_P、TH_N、C、β和k\)
  • 循环(轮次episode):
    • 随机状态或初始化状态
    • 循环(步step):
      • 根据Q表使用策略函数从状态 \(s_t\) 选择动作 \(a_t\)
      • 使用动作 \(a_t\) ,获得回报 \(r_{t+1}\)
      • 如果 $TH_N - kt < \max_aQ(s_{t+1},a) < TH_P + kt $ 那么:
        • $ \gamma_t (\delta, \gamma_{t-1}) = \gamma_{initial}$
        • \(\alpha_t (\delta, t) = \alpha_{initial}\)
      • 否则:
        • \(\gamma_t (t, \gamma_{t-1}) = tanh(t \gamma_{t-1} )\)
        • \(\delta = r_{t+1} + \gamma_t (t, \gamma_{t-1}) \max_a Q(s_{t+1} , a) - Q(s_t, a_t)\)
        • \(\alpha_t(\delta, t) = \tanh(\beta | \delta| / t)\)
      • \(T (t) = C / t, C ∈ N\)
      • \(Q(s_t , a _t) ← Q(s_t , a_t) + \alpha_t (\delta , t) \delta\)
      • $s_t ← s_{t+1} $
    • \(s_t\) 为终状态时结束循环
  • 达到轮次上限时结束循环

其中,\(\beta, k ∈ R_+\) ,且 \(\beta ,k ≥ 1\) 。

Backward Q-learning(主要)

算法描述

  • 随机初始化所有的 \(Q(s,a), M\) 和 \(\alpha_b , \gamma_b\)

  • 对每一轮次:

    • 随机选择一个状态或初始化 \(s_t\)

    • 使用策略函数从Q表中选择 \(s_t\) 下的动作 \(a_t\)

    • 对每个时间步 \(N\)

      • 挑选动作 \(a_t^i\) 与环境交互,然后得到一个回报 \(r_{t+1}^i\) 和观察到的状态 \(s_{t+1}^i\)

      • 使用策略函数从Q表中选择 \(s_{t+1}^i\) 下的动作 \(a_{t+1}^i\)

      • 记录: $M^i ← s_t^i , a_t^i , r_{t+1}^i , s_{t+1}^i $

      • 根据下列公式更新 \(Q(s_t^i,a_t^i)\)

        \[Q(s_t^i,a_t^i) ← Q(s_t^i,a_t^i) + \alpha (r_{t+1}^i + \gamma \max_a Q(s_{t+1}^i,a) - Q(s_t^i , a_t^i)) \]

      • \(s_t^i ← s_{t+1}^i ; a_t^i ← a_{t+1}^i ; i ← i + 1\)

    • 达到最终状态 \(s_t\) ,退出循环

    • \(For \ j = N \ to \ 1\)

    • 根据下列公式,回溯更新 \(Q(s_t^j , a_t^j)\)

      \[Q(s_t^j,a_t^j) ← Q(s_t^j,a_t^j) + \alpha_b (r_{t+1}^j + \gamma_b \max _a Q(s_{t+1}^j , a) - Q(s_t^j,a_t^j)) \]

    • \(End \ for\)

    • 初始化 \(M\)

    • 用降温准则重新计算温度参数(存疑)

  • 达到轮次上限,结束循环。

posted @ 2021-11-06 22:01  SilentSamsara  阅读(35)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3