StableBaseline3 训练与可视化

参考文章

强化学习库StableBaselines3小白教程(一)环境配置和训练 - 蓝鲸鱼BlueWhale的文章 - 知乎

训练设置

  • 依赖:rl-baseline3-zoo、tensorboar、wandb
  • 以ppo算法和CartPole-v1为例
    env=CartPole-v1 alog=ppo python rl_zoo3/train.py \ --algo $alog \ --env $env \ --track
    将得到类似格式的输出:

默认路径:
tensorboard保存路径:runs/{env}{algo}__{time}
模型存储路径:logs/{algo}/{env}_{exp_id}/{env}
超参数:hyperparams/{self.algo}.yml

可视化训练结果

由于我是在远程服务器上运行,不具备图形化界面,所以需要借助xvfb等保存训练视频

  • 依赖:
    pip install moviepy pygame
    sudo apt-get install ffmpeg && xvfb
    在已经完成上面第一步训练过程之后,执行以下代码读取模型评估表现视频
    xvfb-run -a python rl_zoo3/record_training.py \ --algo $alog \ --env $env \ --folder logs \ --gif
    按照命令行输出路径找到保存的图像,类似于下面:
posted @ 2025-05-28 13:40  霜尘FrostDust  阅读(214)  评论(0)    收藏  举报