g
y
7
7
7
7
摘要: 第一课:强化学习智能体的主要组成部分: Policy:引导智能体如何选取动作 Value function:来判断每个状态或者动作的好坏 Model:智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型 一个决策是一个映射函数,从状态、或者观测值到动作的映射 随机决策:随机概率 阅读全文
posted @ 2021-01-18 14:44 gy77 阅读(206) 评论(0) 推荐(0) 编辑