StableBaseline3 训练与可视化
参考文章
强化学习库StableBaselines3小白教程(一)环境配置和训练 - 蓝鲸鱼BlueWhale的文章 - 知乎
训练设置
- 依赖:rl-baseline3-zoo、tensorboar、wandb
- 以ppo算法和CartPole-v1为例
env=CartPole-v1 alog=ppo python rl_zoo3/train.py \ --algo $alog \ --env $env \ --track
将得到类似格式的输出:

默认路径:
tensorboard保存路径:runs/{env}{algo}__{time}
模型存储路径:logs/{algo}/{env}_{exp_id}/{env}
超参数:hyperparams/{self.algo}.yml
可视化训练结果
由于我是在远程服务器上运行,不具备图形化界面,所以需要借助xvfb等保存训练视频
- 依赖:
pip install moviepy pygame
sudo apt-get install ffmpeg && xvfb
在已经完成上面第一步训练过程之后,执行以下代码读取模型评估表现视频
xvfb-run -a python rl_zoo3/record_training.py \ --algo $alog \ --env $env \ --folder logs \ --gif
按照命令行输出路径找到保存的图像,类似于下面:


浙公网安备 33010602011771号