mujoco gymnasium 环境
本文简要介绍 gymnasium 中基于 mujoco 的环境搭建。参照 gymnasium.envs.mujoco 。
1. gymnasium.Env 简介
在 gymnasium 中,环境基类为 gymnasium.Env,其中定义了 step, reset, render, close 等方法以及 action_space, observation_space, reward_range, spec, metadata, np_random 等属性。它们的具体含义如下:
step(elf, action: ActType) -> tuple[ObsType, SupportsFloat, bool, bool, dict[str, Any]] 该方法通过输入一个 action,执行一个仿真步,并返回 observation, reward, terminated, truncated, info, done 等信息。
reset(self, *, seed: int | None = None, options: dict[str, Any] | None = None, ) -> tuple[ObsType, dict[str, Any]] 该方法通过输入一个 seed,将场景中物体重置为随机状态,并返回 observation, info 等信息。
render(self) -> RenderFrame | list[RenderFrame] | None 该方法渲染场景,并返回渲染结果。
close() 关闭并清理场景。
2. mujoco_env.BaseMujocoEnv 、 mujoco.MuJocoPyEnv 以及 mujoco.MujocoEnv
在 mujoco_env.py 文件中,首先定义了 BaseMujocoEnv 作为 mujoco 仿真环境的基类。

浙公网安备 33010602011771号