• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • YouClaw
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

my灬king

  • 博客园
  • 联系
  • 订阅
  • 管理

公告

11 2020 档案

DDPG算法
摘要:关键词 离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。 在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中,游戏有 6 个按键的动作可以输出。 但在实际情况中,经常 阅读全文

posted @ 2020-11-08 19:17 my灬king 阅读(2909) 评论(0) 推荐(0)

稀疏奖励及模仿学习
摘要:一、稀疏奖励 实际上用 reinforcement learning learn agent 的时候,多数的时候 agent 都是没有办法得到 reward 的。那在没有办法得到 reward 的情况下,训练 agent 是非常困难的。如果环境中的 reward 非常 sparse,reinforc 阅读全文

posted @ 2020-11-05 23:32 my灬king 阅读(290) 评论(0) 推荐(0)

Q学习
摘要:1、基本概念 DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经历回放(Experience Replay)的方法进行 阅读全文

posted @ 2020-11-03 23:47 my灬king 阅读(950) 评论(0) 推荐(0)

 
博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3