随笔分类 - 强化学习
摘要:多智能体的常见设定: 合作关系。比如工业机器人 竞争关系。比如拳击比赛 合作-竞争混合。比如机器人足球比赛 利己主义。比如股票自动交易系统 多智能体系统的术语: 有n个智能体; $S$为状态; $A^i$表示第$i$个智能体的动作; 状态转移: \[ p(s^{\prime} | s,a^1,a^2
阅读全文
摘要:最优优势函数: \[ A^*(s,a) = Q^*(s,a) - V^*(s) \] 其表示的含义是在状态s下动作$a$相对于最优状态价值的优势。 由于$V^(s,a) = \mathop {max}\limits_aQ^(s,a)$,故$A^(s,a) ⇐ 0$,即$\mathop {max}\l
阅读全文
摘要:bootstrapping:左脚踩右脚上升。用一个估算去更新同类的估算。 DQN的高估问题:TD算法导致DQN高估真实的动作价值。以下两个原因导致DQN出现高估: TD target:\(y_t = r_t + \gamma \cdot \mathop {max}\limits_aQ^*(s_{t+
阅读全文
摘要:Experience replay 经验回放 原始TD算法的缺点: 每一个transition用完之后就被舍弃了。 相邻state之间的相关性非常大,这对于训练是有害的,把用于训练的transition之间的顺序打散更利于训练。 经验回放: 使用replay buffer存储最近的n(105 ~ 1
阅读全文
摘要:TD算法 SARSA算法: SARSA名字由来:SARSA每次用一个五元组来更新动作价值表(Q表):\((s_t,a_t,r_t,s_{t+1},a_{t+1})\),SARSA的每一个字母对应元组里的一个元素。 表格版本。状态和动作都是有限的,以状态为行,动作为列建表,表中的每个元素表示动作价值$
阅读全文
摘要:value-based,价值学习:DQN。构建一个神经网络,输入是state,有多个输出对应采取每个action到最后所能获得的累加奖励Q-value。一开始这个网络估计出来的Q-value很差,我们使用TD算法,让 \[ target = r(a_t|s_t) + \lambda Q(s_{t+1
阅读全文
摘要:强化学习的三个特征: 闭环:动作决定环境,又依据环境选择动作。 非监督。 当前行动不仅影响短期奖励,也会影响长期奖励。 强化学习的元素: policy:\(\pi (a|s)\),policy决定了在特定state下将会选择的action。 reward signal:在选择动作时,环境提供数字信号
阅读全文

浙公网安备 33010602011771号