2023 年 3月随笔档案 - iailab

【强化学习的数学原理】课程笔记（四）——值迭代和策略迭代

摘要：目录 1. 值迭代 Value Iteration2. 策略迭代 Policy Iteration3. 截断策略迭代 Truncated Policy Iteration3.1 Policy Interation and Value Interation3.2 Truncated Policy It 阅读全文

posted @ 2023-03-14 17:11 iailab 阅读(178) 评论(0) 推荐(0)

【强化学习的数学原理】课程笔记（三）——贝尔曼最优公式

摘要：目录 1. 最优策略（optimal policy）的定义2. Bellman optimal policy(BOE)3. Rewrite Equation4. Contraction Mapping Theorem5. Solution6. Analyzing optimal policies 说阅读全文

posted @ 2023-03-13 18:26 iailab 阅读(137) 评论(0) 推荐(0)

【强化学习的数学原理】课程笔记（二）——贝尔曼公式

摘要：目录 1. return 的重要性2. state value3. bellman equation3.1 Bellman equation 的推导3.2 Matrix-vector form of the Bellman Equation3.3 利用 Bellman Equation 求解 Sta 阅读全文

posted @ 2023-03-11 20:45 iailab 阅读(295) 评论(0) 推荐(0)

【强化学习的数学原理】课程笔记（一）——基本概念

摘要：目录 1. 引言2. 基本概念3. MDP3.1 MDP的关键要素3.2 举例说明：本内容为个人自用学习笔记，整理自b站西湖大学赵世钰老师的【强化学习的数学原理】课程，特别感谢老师分享讲解如此清楚的课程。 1. 引言前两本书偏文字性介绍，后两本具有较强的数学性，较为难懂！监督学习、无监督学习主阅读全文

posted @ 2023-03-11 20:38 iailab 阅读(226) 评论(0) 推荐(0)

初心小言

03 2023 档案

公告