《GPU-Accelerated Atari Emulation for Reinforcement Learning》大batch size的并行采样可以提高计算效率，减少训练的收敛时间

并行化采样的RL对什么样的RL算法性能提升显著，对什么样的RL算法性能提升不显著？原论文中认为对于性能提升提升不显著的RL算法如何补救（寻找更好的超参，寻找更好的网络架构，还是如何？）

对 PPO 和 A2C+Vtrace 的方法并不显著，对A2C方法显著，可以较大程度提高收敛速度，提高算法性能。论文里面认为使用更好的超参可以提高大batch size采样不敏感的RL算法得到收敛性（更少的时间内收敛）和性能提升。

有下面结论：

增加batch size确实可以提高算法收敛性及性能，但是并不是一味增加batch size即可，比如1024个环境并行采样的效果不一定就比2048个环境并行采样的效果差。
如何选择并行采样过程中的样本的batch size是一个有难度的事情。

posted on 2025-08-22 08:00 Angry_Panda 阅读(15) 评论(0) 收藏举报

刷新页面返回顶部

Angry Panda（T-800）