nagimegesa - 博客园

2025年2月28日

摘要： NSFP算法论文名称：《Deep Reinforcement Learning from Self-Play in Imperfect-Information Games》这是一篇博弈论和强化学习交叉的文章，网上的资料比较少，但是确实是对手建模的重要算法之一。虽然后面的PSRO算法指出NFSP是阅读全文

posted @ 2025-02-28 16:07 nagimegesa 阅读(416) 评论(0) 推荐(0)

2025年2月20日

VDN、QMIX、QTRAN、COMA

摘要： VDN、QMIX、QTRAN、COMA 论文名称： VDN：《Value-Decomposition Networks For Cooperative Multi-Agent Learning》 QMIX: 《QMIX: Monotonic Value Function Factorisation 阅读全文

posted @ 2025-02-20 20:26 nagimegesa 阅读(843) 评论(0) 推荐(0)

2025年1月10日

TD(lambda) 算法

摘要： \(TD(\lambda)\)是统一蒙特卡洛算法（MC）和时序差分算法（TD）的第二种形式。第一种形式也就是 \(TD(n)\) 算法。具体来说， \(TD(n)\) 的公式可以写为： \[\begin{equation} \begin{aligned} G_{t:t+1} &= R_{t+1} + 阅读全文

posted @ 2025-01-10 14:44 nagimegesa 阅读(711) 评论(0) 推荐(0)

2024年12月23日

MADDPG算法

摘要： MADDPG算法论文名称：《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》一、基本问题 MADDPG是一篇经典的多智能体强化学习算法。在MADDPG以前，多智能体强化学习算法主要为独立学习技术。独阅读全文

posted @ 2024-12-23 00:24 nagimegesa 阅读(3156) 评论(0) 推荐(0)

2024年12月13日

Soft Actor Critic 系列

摘要： Soft Actor Critic 系列前言 Soft Actor Critic 一共有3篇论文。单纯从方法上来看三篇论文是递进关系。第一篇：《Reinforcement Learning with Deep Energy-Based Policies》这一篇是后面两篇论文的理论基础，推导了基阅读全文

posted @ 2024-12-13 16:52 nagimegesa 阅读(477) 评论(0) 推荐(0)

强化学习

摘要：强化学习一、基本概念状态state 智能体相对于环境的状态，用 s 表示状态空间 state space 智能体所有的状态的集合叫做状态空间，用 \(S_i\) 表示行动 action 在每一个状态可以采取的行动，用 A 表示行动空间 action space 在某个状态下，所有可行阅读全文

posted @ 2024-12-13 15:23 nagimegesa 阅读(302) 评论(0) 推荐(0)

2022年12月10日

电信计费系列

摘要：前言这次开始换了一个类型，所有的都重新开始(大概是前面的点线型的题目迭代的有点复杂了, 基本框架已经固定, 剩下的以算法为主)。这次新开的题目如果按照面向过程来写就十分的简单。但是由于我们是JAVA课, 题目里面直接塞了一个类图。按照类图来写还是比较简单的。设计还是先看一下题目。实现一个简单阅读全文

posted @ 2022-12-10 10:41 nagimegesa 阅读(828) 评论(0) 推荐(0)

2022年10月28日

JAVA 期中考试

摘要：前言这次JAVA期中考试, 总体上来讲几乎没有难度。只要上课认真听了, 并且下课有认真写PTA的话, 我认为难度几乎就是0。因为题目简单, 也不涉及到什么设计的内容(因为类图已经给出来了)。所以这里就不分析太多了。实现老样子先看题目第一题设计一个类表示平面直角坐标系上的点Point，私有属阅读全文

posted @ 2022-10-28 21:19 nagimegesa 阅读(131) 评论(0) 推荐(0)

2022年10月26日

JAVA PTA 大作业2

摘要：前言 PTA 上的JAVA大作业, 已经是第二次了。这一次的题目只要是在前几次的点、线、三角形的基础上跟进一步, 添加了四边形、五边形等更加复杂的图形。正因如此, 这次大作业是更多的是对前面框架的补充和修改以及解决上次遗留的问题。因此这里不会再过多的叙述整体的设计。想要查看之前的作业可以点击这里。阅读全文

posted @ 2022-10-26 14:06 nagimegesa 阅读(247) 评论(0) 推荐(1)

2022年9月29日

JAVA PTA 大作业1

摘要：前言 PTA 上的JAVA大作业前两次我认为是以熟悉JAVA语法为主，比较简单。从第三次开始必须要有一定的设计, 是以训练和考察面向对象的思想为主, 同时也涉及到一些JAVA为面向对象提供的C语言没有的特殊语法。所以这里主要以分析第三次作业为主。分析第二次作业看一下第二题第二题是这样的 R 阅读全文

posted @ 2022-09-29 18:24 nagimegesa 阅读(161) 评论(0) 推荐(0)

这是一篇博客