强化学习 - 随笔分类 - 风和雨滴

多智能体强化学习

摘要：多智能体的常见设定：合作关系。比如工业机器人竞争关系。比如拳击比赛合作-竞争混合。比如机器人足球比赛利己主义。比如股票自动交易系统多智能体系统的术语：有n个智能体； $S$为状态； $A^i$表示第$i$个智能体的动作；状态转移： \[ p(s^{\prime} | s,a^1,a^2 阅读全文

posted @ 2021-07-30 23:00 风和雨滴阅读(954) 评论(0) 推荐(0)

dueling network

摘要：最优优势函数： \[ A^*(s,a) = Q^*(s,a) - V^*(s) \] 其表示的含义是在状态s下动作$a$相对于最优状态价值的优势。由于$V^(s,a) = \mathop {max}\limits_aQ^(s,a)$，故$A^(s,a) ⇐ 0$，即$\mathop {max}\l 阅读全文

posted @ 2021-07-30 20:07 风和雨滴阅读(354) 评论(0) 推荐(0)

DQN高阶技巧

摘要：bootstrapping：左脚踩右脚上升。用一个估算去更新同类的估算。 DQN的高估问题：TD算法导致DQN高估真实的动作价值。以下两个原因导致DQN出现高估： TD target：\(y_t = r_t + \gamma \cdot \mathop {max}\limits_aQ^*(s_{t+ 阅读全文

posted @ 2021-07-30 20:00 风和雨滴阅读(315) 评论(0) 推荐(0)

Experience replay 经验回放

摘要：Experience replay 经验回放原始TD算法的缺点：每一个transition用完之后就被舍弃了。相邻state之间的相关性非常大，这对于训练是有害的，把用于训练的transition之间的顺序打散更利于训练。经验回放：使用replay buffer存储最近的n(105 ~ 1 阅读全文

posted @ 2021-07-30 19:56 风和雨滴阅读(210) 评论(0) 推荐(0)

TD算法

摘要：TD算法 SARSA算法： SARSA名字由来：SARSA每次用一个五元组来更新动作价值表（Q表）：$(s_t,a_t,r_t,s_{t+1},a_{t+1})$，SARSA的每一个字母对应元组里的一个元素。表格版本。状态和动作都是有限的，以状态为行，动作为列建表，表中的每个元素表示动作价值$ 阅读全文

posted @ 2021-07-30 19:49 风和雨滴阅读(624) 评论(0) 推荐(0)

深度强化学习

摘要：value-based，价值学习：DQN。构建一个神经网络，输入是state，有多个输出对应采取每个action到最后所能获得的累加奖励Q-value。一开始这个网络估计出来的Q-value很差，我们使用TD算法，让 \[ target = r(a_t|s_t) + \lambda Q(s_{t+1 阅读全文

posted @ 2021-07-14 16:08 风和雨滴阅读(155) 评论(0) 推荐(0)

强化学习一些基本概念

摘要：强化学习的三个特征：闭环：动作决定环境，又依据环境选择动作。非监督。当前行动不仅影响短期奖励，也会影响长期奖励。强化学习的元素： policy：$\pi (a|s)$，policy决定了在特定state下将会选择的action。 reward signal：在选择动作时，环境提供数字信号阅读全文

posted @ 2021-07-14 16:07 风和雨滴阅读(856) 评论(0) 推荐(0)

风和雨滴

随笔分类 - 强化学习

公告