随笔分类 - 强化学习
摘要:该论文主要讲述了多智能体通信。 简介中提出,很多多智能体任务需要通信,所以提出了两种算法RIAL和DIAL。论文中考虑的任务是完全合作,部分观测,顺序多智能体决策的任务。所有的智能体的目标是相同的,最大化累计折扣奖励。没用智能体能观察到完整的马尔可夫状态,智能体之间可以通过有限离散的信道交流,智能体
        阅读全文
                
摘要:文章介绍了一种提高多智能体之间通信效率的方法(得到最适合的通信带宽)。 首先介绍了多智能体强化学习模型ACML: 算法跟MADDPG是有点类似的,增加了信息生成网络和信息协调网络,actor产生决策的时候还要考虑协调后的信息,变相得到了全局的信息。 但是这种信息可能是冗余的,下面考虑优化: 在生成网
        阅读全文
                
摘要:论文:https://arxiv.org/pdf/1802.01561.pdf 参考:https://zhuanlan.zhihu.com/p/58226117 https://zhuanlan.zhihu.com/p/34074929 以下是论文的选择性(个人向)翻译QAQ 摘要: 在这篇论文中,
        阅读全文
                
摘要:单臂摆是强化学习的一个经典模型,本文采用了4种不同的算法来解决这个问题,使用Pytorch实现。 以下是老版本,2022年9月14日新增Dueling DQN, Actor-Critic算法, SAC,更新了PPO,DDPG算法,在文末。 DQN: 参考: 算法思想: https://mofanpy
        阅读全文
                
摘要:参考:https://zhuanlan.zhihu.com/p/129247756 论文原文:https://arxiv.org/pdf/2003.13590.pdf 一、遇到的挑战: 1、复杂的计分系统。每一局麻将游戏包含很多回合,而最后的排名是由这些回合的总分决定的(当玩家在前面的回合产生了巨大
        阅读全文
                
摘要:刚把《强化学习》的第一部分写完,突发奇想想写一个井字棋小游戏AI,采用MCTS算法,中间采用了UCT算法作为树中策略,等概率随机作为树外策略。 代码: #include <bits/stdc++.h> using namespace std; const int maxn = 20010; doub
        阅读全文
                
摘要:本章的重点就是计算价值函数,通过DP进行迭代计算。 Vπ(s)的定义式: 迭代计算方式: 以该问题为例,编写代码加深理解: 过程图: 本图中展示的是策略不变的情况。虽然策略没变,但是仍然找到了每个状态的最优动作。 此为模拟程序在策略不改变的情况下展示的结果 策略改变: 添加了基于贪心的策略改进之后,
        阅读全文
                
摘要:本章节以多臂赌博机为模型,介绍了若干个在简化环境下的强化学习算法(动作不会影响下一时刻的情景和收益) 1、贪心算法,每次选择期望收益最大的动作 2、ξ-贪心,在贪心算法的基础上,有ξ的概率从所有的动作中等概率选择一个。ξ如果比较大可以更快的找到收益最大的动作,但是会影响选择选择收益最大动作的概率(ξ
        阅读全文
                
摘要:强化学习与常见机器学习方法的区别: 1、有监督学习: 有监督学习是从外部监督者提供的带标注的训练集当中进行学习,这种学习方式是为了让系统具有推断或泛华的能力。 2、无监督学习: 无监督学习是一个典型的寻找未标注的数据中的隐含结构的问题。 3、强化学习: 强化学习是一种对目标导向的学习与决策进行理解和
        阅读全文
                
 
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号