随笔分类 -  Reinfoce Learning

摘要:NSFP算法 论文名称:《Deep Reinforcement Learning from Self-Play in Imperfect-Information Games》 这是一篇博弈论和强化学习交叉的文章,网上的资料比较少,但是确实是对手建模的重要算法之一。虽然后面的PSRO算法指出NFSP是 阅读全文
posted @ 2025-02-28 16:07 nagimegesa 阅读(431) 评论(0) 推荐(0)
摘要:VDN、QMIX、QTRAN、COMA 论文名称: VDN:《Value-Decomposition Networks For Cooperative Multi-Agent Learning》 QMIX: 《QMIX: Monotonic Value Function Factorisation 阅读全文
posted @ 2025-02-20 20:26 nagimegesa 阅读(878) 评论(0) 推荐(0)
摘要:\(TD(\lambda)\)是统一蒙特卡洛算法(MC)和时序差分算法(TD)的第二种形式。第一种形式也就是 \(TD(n)\) 算法。具体来说, \(TD(n)\) 的公式可以写为: \[\begin{equation} \begin{aligned} G_{t:t+1} &= R_{t+1} + 阅读全文
posted @ 2025-01-10 14:44 nagimegesa 阅读(796) 评论(0) 推荐(0)
摘要:MADDPG算法 论文名称:《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》 一、基本问题 MADDPG是一篇经典的多智能体强化学习算法。在MADDPG以前,多智能体强化学习算法主要为独立学习技术。 独 阅读全文
posted @ 2024-12-23 00:24 nagimegesa 阅读(3246) 评论(0) 推荐(0)
摘要:强化学习 一、基本概念 状态state 智能体相对于环境的状态, 用 s 表示 状态空间 state space 智能体所有的状态的集合叫做状态空间, 用 \(S_i\) 表示 行动 action 在每一个状态可以采取的行动, 用 A 表示 行动空间 action space 在某个状态下,所有可行 阅读全文
posted @ 2024-12-13 15:23 nagimegesa 阅读(305) 评论(0) 推荐(0)