摘要: 主要就是 __init__, step, reset 三个方法,① __init__ 要记得定义 state action space,② step 返回 (obs, reward, done, info),③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。 阅读全文
posted @ 2023-03-03 11:03 MoonOut 阅读(446) 评论(0) 推荐(0)