摘要: 目录 1. 值迭代 Value Iteration2. 策略迭代 Policy Iteration3. 截断策略迭代 Truncated Policy Iteration3.1 Policy Interation and Value Interation3.2 Truncated Policy It 阅读全文
posted @ 2023-03-14 17:11 iailab 阅读(143) 评论(0) 推荐(0)
摘要: 目录 1. 最优策略(optimal policy)的定义2. Bellman optimal policy(BOE)3. Rewrite Equation4. Contraction Mapping Theorem5. Solution6. Analyzing optimal policies 说 阅读全文
posted @ 2023-03-13 18:26 iailab 阅读(111) 评论(0) 推荐(0)
摘要: 目录 1. return 的重要性2. state value3. bellman equation3.1 Bellman equation 的推导3.2 Matrix-vector form of the Bellman Equation3.3 利用 Bellman Equation 求解 Sta 阅读全文
posted @ 2023-03-11 20:45 iailab 阅读(246) 评论(0) 推荐(0)
摘要: 目录 1. 引言2. 基本概念3. MDP3.1 MDP的关键要素3.2 举例 说明:本内容为个人自用学习笔记,整理自b站西湖大学赵世钰老师的【强化学习的数学原理】课程,特别感谢老师分享讲解如此清楚的课程。 1. 引言 前两本书偏文字性介绍,后两本具有较强的数学性,较为难懂! 监督学习、无监督学习主 阅读全文
posted @ 2023-03-11 20:38 iailab 阅读(162) 评论(0) 推荐(0)
摘要: 目录 1. 国内常用源1.1 pip1.2 conda 2. 换源方式2.1 pip换源方式2.2 conda换源方式 1. 国内常用源 1.1 pip # 阿里云 http://mirrors.aliyun.com/pypi/simple/ # 豆瓣(douban) http://pypi.dou 阅读全文
posted @ 2023-01-07 21:23 iailab 阅读(376) 评论(0) 推荐(0)
摘要: Ubuntu18.04 安装NVIDIA驱动、Anaconda、pytorch1.71 目录 Ubuntu18.04 安装NVIDIA驱动、Anaconda、pytorch1.711. NVIDIA显卡驱动安装1.1 驱动选择1.2 驱动安装 2. Anaconda安装2.1 下载2.2 安装2.3 阅读全文
posted @ 2022-10-10 23:30 iailab 阅读(87) 评论(0) 推荐(0)