摘要: 背景及相关问题: 多代理的学习中,通过奖励代理对其他代理产生的影响,可以增进多代理在强化学习中的合作和沟通。之前在MARL环境中关于紧急通信的方式无法以分散的方式学习各种策略,而使代理能够通过深度神经网络学习其他代理状况的模型可以用离散的方式计算所有代理的影响力奖励。(强化学习的内在动机问题) 之前 阅读全文
posted @ 2022-11-11 18:18 lanthanume 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 背景及问题: 过去有关公共池资源占用的问题上通常采用非合作博弈论的抽象预测模型仅仅考虑个人利益,往往无法找到比较好的社会均衡结果,并且仅仅考虑了占用多少这个维度 现在的该类问题向空间和时间资源动态扩展,非合作博弈论不再适用该种问题 创新及问题的解决: 论文采用深度强化学习的方法替代了原有的非合作博弈 阅读全文
posted @ 2022-11-11 17:02 lanthanume 阅读(60) 评论(0) 推荐(0) 编辑