Reinfoce Learning - 随笔分类 - nagimegesa

NFSP

摘要：NSFP算法论文名称：《Deep Reinforcement Learning from Self-Play in Imperfect-Information Games》这是一篇博弈论和强化学习交叉的文章，网上的资料比较少，但是确实是对手建模的重要算法之一。虽然后面的PSRO算法指出NFSP是阅读全文

posted @ 2025-02-28 16:07 nagimegesa 阅读(431) 评论(0) 推荐(0)

VDN、QMIX、QTRAN、COMA

摘要：VDN、QMIX、QTRAN、COMA 论文名称： VDN：《Value-Decomposition Networks For Cooperative Multi-Agent Learning》 QMIX: 《QMIX: Monotonic Value Function Factorisation 阅读全文

posted @ 2025-02-20 20:26 nagimegesa 阅读(878) 评论(0) 推荐(0)

TD(lambda) 算法

摘要：\(TD(\lambda)\)是统一蒙特卡洛算法（MC）和时序差分算法（TD）的第二种形式。第一种形式也就是 \(TD(n)\) 算法。具体来说， \(TD(n)\) 的公式可以写为： \[\begin{equation} \begin{aligned} G_{t:t+1} &= R_{t+1} + 阅读全文

posted @ 2025-01-10 14:44 nagimegesa 阅读(796) 评论(0) 推荐(0)

MADDPG算法

摘要：MADDPG算法论文名称：《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》一、基本问题 MADDPG是一篇经典的多智能体强化学习算法。在MADDPG以前，多智能体强化学习算法主要为独立学习技术。独阅读全文

posted @ 2024-12-23 00:24 nagimegesa 阅读(3246) 评论(0) 推荐(0)

强化学习

摘要：强化学习一、基本概念状态state 智能体相对于环境的状态，用 s 表示状态空间 state space 智能体所有的状态的集合叫做状态空间，用 \(S_i\) 表示行动 action 在每一个状态可以采取的行动，用 A 表示行动空间 action space 在某个状态下，所有可行阅读全文

posted @ 2024-12-13 15:23 nagimegesa 阅读(305) 评论(0) 推荐(0)

这是一篇博客

随笔分类 - Reinfoce Learning