2022 年 8月 3 日随笔档案 - Jary霸

2022年8月3日

摘要： 1、强化学习 1️⃣概念状态转移概率矩阵（已知状态s和动作a，下一个状态是s‘ 的概率）：状态 s 采取动作 a 能获得的奖励期望：策略：状态s下采取动作a的概率：执行策略后，状态从s转移至 s' 的概率：奖励函数： return ：从 t 时刻开始往后所有的奖励的有衰减的和：行为价值阅读全文

posted @ 2022-08-03 17:22 Jary霸阅读(259) 评论(0) 推荐(0)

aaa2222339

公告