摘要: NSFP算法 论文名称:《Deep Reinforcement Learning from Self-Play in Imperfect-Information Games》 这是一篇博弈论和强化学习交叉的文章,网上的资料比较少,但是确实是对手建模的重要算法之一。虽然后面的PSRO算法指出NFSP是 阅读全文
posted @ 2025-02-28 16:07 nagimegesa 阅读(352) 评论(0) 推荐(0)
摘要: VDN、QMIX、QTRAN、COMA 论文名称: VDN:《Value-Decomposition Networks For Cooperative Multi-Agent Learning》 QMIX: 《QMIX: Monotonic Value Function Factorisation 阅读全文
posted @ 2025-02-20 20:26 nagimegesa 阅读(722) 评论(0) 推荐(0)
摘要: \(TD(\lambda)\)是统一蒙特卡洛算法(MC)和时序差分算法(TD)的第二种形式。第一种形式也就是 \(TD(n)\) 算法。具体来说, \(TD(n)\) 的公式可以写为: \[\begin{equation} \begin{aligned} G_{t:t+1} &= R_{t+1} + 阅读全文
posted @ 2025-01-10 14:44 nagimegesa 阅读(520) 评论(0) 推荐(0)
摘要: MADDPG算法 论文名称:《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》 一、基本问题 MADDPG是一篇经典的多智能体强化学习算法。在MADDPG以前,多智能体强化学习算法主要为独立学习技术。 独 阅读全文
posted @ 2024-12-23 00:24 nagimegesa 阅读(2684) 评论(0) 推荐(0)
摘要: Soft Actor Critic 系列 前言 Soft Actor Critic 一共有3篇论文。单纯从方法上来看三篇论文是递进关系。 第一篇:《Reinforcement Learning with Deep Energy-Based Policies》 这一篇是后面两篇论文的理论基础,推导了基 阅读全文
posted @ 2024-12-13 16:52 nagimegesa 阅读(384) 评论(0) 推荐(0)
摘要: 强化学习 一、基本概念 状态state 智能体相对于环境的状态, 用 s 表示 状态空间 state space 智能体所有的状态的集合叫做状态空间, 用 \(S_i\) 表示 行动 action 在每一个状态可以采取的行动, 用 A 表示 行动空间 action space 在某个状态下,所有可行 阅读全文
posted @ 2024-12-13 15:23 nagimegesa 阅读(282) 评论(0) 推荐(0)
摘要: 前言 这次开始换了一个类型,所有的都重新开始(大概是前面的点线型的题目迭代的有点复杂了, 基本框架已经固定, 剩下的以算法为主)。这次新开的题目如果按照面向过程来写就十分的简单。但是由于我们是JAVA课, 题目里面直接塞了一个类图。按照类图来写还是比较简单的。 设计 还是先看一下题目。 实现一个简单 阅读全文
posted @ 2022-12-10 10:41 nagimegesa 阅读(801) 评论(0) 推荐(0)
摘要: 前言 这次JAVA期中考试, 总体上来讲几乎没有难度。只要上课认真听了, 并且下课有认真写PTA的话, 我认为难度几乎就是0。因为题目简单, 也不涉及到什么设计的内容(因为类图已经给出来了)。所以这里就不分析太多了。 实现 老样子先看题目 第一题 设计一个类表示平面直角坐标系上的点Point,私有属 阅读全文
posted @ 2022-10-28 21:19 nagimegesa 阅读(122) 评论(0) 推荐(0)
摘要: 前言 PTA 上的JAVA大作业, 已经是第二次了。这一次的题目只要是在前几次的点、线、三角形的基础上跟进一步, 添加了四边形、五边形等更加复杂的图形。正因如此, 这次大作业是更多的是对前面框架的补充和修改以及解决上次遗留的问题。因此这里不会再过多的叙述整体的设计。想要查看之前的作业可以点击这里。 阅读全文
posted @ 2022-10-26 14:06 nagimegesa 阅读(239) 评论(0) 推荐(1)
摘要: 前言 PTA 上的JAVA大作业 前两次我认为是以熟悉JAVA语法为主,比较简单。从第三次开始必须要有一定的设计, 是以训练和考察面向对象的思想为主, 同时也涉及到一些JAVA为面向对象提供的C语言没有的特殊语法。 所以这里主要以分析第三次作业为主。 分析 第二次作业看一下第二题 第二题是这样的 R 阅读全文
posted @ 2022-09-29 18:24 nagimegesa 阅读(155) 评论(0) 推荐(0)