03 2023 档案
摘要:目录 1. 值迭代 Value Iteration2. 策略迭代 Policy Iteration3. 截断策略迭代 Truncated Policy Iteration3.1 Policy Interation and Value Interation3.2 Truncated Policy It
阅读全文
摘要:目录 1. 最优策略(optimal policy)的定义2. Bellman optimal policy(BOE)3. Rewrite Equation4. Contraction Mapping Theorem5. Solution6. Analyzing optimal policies 说
阅读全文
摘要:目录 1. return 的重要性2. state value3. bellman equation3.1 Bellman equation 的推导3.2 Matrix-vector form of the Bellman Equation3.3 利用 Bellman Equation 求解 Sta
阅读全文
摘要:目录 1. 引言2. 基本概念3. MDP3.1 MDP的关键要素3.2 举例 说明:本内容为个人自用学习笔记,整理自b站西湖大学赵世钰老师的【强化学习的数学原理】课程,特别感谢老师分享讲解如此清楚的课程。 1. 引言 前两本书偏文字性介绍,后两本具有较强的数学性,较为难懂! 监督学习、无监督学习主
阅读全文

浙公网安备 33010602011771号