Wonx3 - 博客园

2025年4月17日

带着问题读论文之DINC: Toward Distributed In-Network Computing

摘要：带着问题看论文摘要 1.在网计算有什么优势在网计算可以提供大量的性能收益、减轻负载和节约能耗 2.现有研究工作的限制在网服务功能受限于单硬件设备，且现有的研究没有关注到分布在网计算 3.本文做的工作本文提出了一种在网计算的应用包含：架构、部署策略、克服资源限制，提供功能保证策略部署中提出阅读全文

posted @ 2025-04-17 23:01 Wonx3 阅读(79) 评论(0) 推荐(0)

2024年8月18日

使用深度强化学习产生多维动作空间，智能体更新如何处理

摘要：在编写客制的深度强化学习环境时，有时候需要使用到智能体多维动作空间的应用。比如说，我们设计的环境是一个打砖块游戏，这时智能体需要产生一个[左，右，不动]的动作概率分布，智能体动作空间只产生一个维度：[0.2,0.4,0.4] 此时，我们需要设计板来打砖块，而且是一个智能体，这时候智能体产生的动作空阅读全文

posted @ 2024-08-18 17:20 Wonx3 阅读(210) 评论(0) 推荐(0)

2024年8月8日

PPO算法动作概率出现[0,0,0,0,0,1]的问题

摘要：在PPO算法中，使用softmax函数使actor网络生成离散动作与其对应的概率分布时，碰到了出现[1,0,0]这种情况。经过查验，是因为状态空间s的输入数值太大，经验证，超过500即会产生这种情况，具体什么原因不得而知。（待查证）解决方案就是将状态空间归一化，缩小之后就好了。阅读全文

posted @ 2024-08-08 09:51 Wonx3 阅读(59) 评论(0) 推荐(0)

2024年8月3日

ppo算法使用gpu加速

摘要：因为论文需要使用ppo算法。现在算法能跑通了，图看着有点像收敛，所以就想着使用GPU加速，好方便调参，谁知道一搜深度强化学习如何使用GPU加速，居然一条帖子都没有。所以在此记录下如何使用GPU给PPO算法加速。我的环境是基于pytorch的，已经安装好支持GPU版本pytorch了，如果还不了解阅读全文

posted @ 2024-08-03 17:06 Wonx3 阅读(261) 评论(0) 推荐(0)

公告