2022 年 2月 24 日随笔档案 - 行者AI

2022年2月24日

摘要：

本文首发于行者AI 引言上一篇文章我们详细介绍了策略梯度算法(PG)，ppo其实就是策略梯度的一种变形。首先介绍一下同策略（on-policy）与异策略(off-policy)的区别。在强化学习里面，我们需要学习的其实就是一个智能体。如果要学习的智能体跟和环境互动的智能体是同一个的话，称之为同策阅读全文

posted @ 2022-02-24 14:42 行者AI 阅读(18367) 评论(1) 推荐(3)

行者AI

为游戏插上人工智能的翅膀

公告