2021 年 1月 18 日随笔档案 - gy77

2021年1月18日

摘要：第一课：强化学习智能体的主要组成部分： Policy：引导智能体如何选取动作 Value function：来判断每个状态或者动作的好坏 Model：智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型一个决策是一个映射函数，从状态、或者观测值到动作的映射随机决策：随机概率阅读全文

posted @ 2021-01-18 14:44 gy77 阅读(247) 评论(0) 推荐(0)

一届书生

本博客所有内容以学习、研究和分享为主，如需转载，请标明作者和出处，并且是非商业用途，谢谢。

公告