摘要: 带着问题看论文 摘要 1.在网计算有什么优势 在网计算可以提供大量的性能收益、减轻负载和节约能耗 2.现有研究工作的限制 在网服务功能受限于单硬件设备,且现有的研究没有关注到分布在网计算 3.本文做的工作 本文提出了一种在网计算的应用 包含:架构、部署策略、克服资源限制,提供功能保证 策略部署中提出 阅读全文
posted @ 2025-04-17 23:01 Wonx3 阅读(50) 评论(0) 推荐(0)
摘要: 在编写客制的深度强化学习环境时,有时候需要使用到智能体多维动作空间的应用。 比如说,我们设计的环境是一个打砖块游戏,这时智能体需要产生一个[左,右,不动]的动作概率分布,智能体动作空间只产生一个维度:[0.2,0.4,0.4] 此时,我们需要设计板来打砖块,而且是一个智能体,这时候智能体产生的动作空 阅读全文
posted @ 2024-08-18 17:20 Wonx3 阅读(170) 评论(0) 推荐(0)
摘要: 在PPO算法中,使用softmax函数使actor网络生成离散动作与其对应的概率分布时,碰到了出现[1,0,0]这种情况。 经过查验,是因为状态空间s的输入数值太大,经验证,超过500即会产生这种情况,具体什么原因不得而知。(待查证) 解决方案就是将状态空间归一化,缩小之后就好了。 阅读全文
posted @ 2024-08-08 09:51 Wonx3 阅读(46) 评论(0) 推荐(0)
摘要: 因为论文需要使用ppo算法。现在算法能跑通了,图看着有点像收敛,所以就想着使用GPU加速,好方便调参,谁知道一搜深度强化学习如何使用GPU加速,居然一条帖子都没有。 所以在此记录下如何使用GPU给PPO算法加速。 我的环境是基于pytorch的,已经安装好支持GPU版本pytorch了,如果还不了解 阅读全文
posted @ 2024-08-03 17:06 Wonx3 阅读(222) 评论(0) 推荐(0)