iailab - 博客园

2023年3月14日

摘要：目录 1. 值迭代 Value Iteration2. 策略迭代 Policy Iteration3. 截断策略迭代 Truncated Policy Iteration3.1 Policy Interation and Value Interation3.2 Truncated Policy It 阅读全文

posted @ 2023-03-14 17:11 iailab 阅读(220) 评论(0) 推荐(0)

2023年3月13日

【强化学习的数学原理】课程笔记（三）——贝尔曼最优公式

摘要：目录 1. 最优策略（optimal policy）的定义2. Bellman optimal policy(BOE)3. Rewrite Equation4. Contraction Mapping Theorem5. Solution6. Analyzing optimal policies 说阅读全文

posted @ 2023-03-13 18:26 iailab 阅读(165) 评论(0) 推荐(0)

2023年3月11日

【强化学习的数学原理】课程笔记（二）——贝尔曼公式

摘要：目录 1. return 的重要性2. state value3. bellman equation3.1 Bellman equation 的推导3.2 Matrix-vector form of the Bellman Equation3.3 利用 Bellman Equation 求解 Sta 阅读全文

posted @ 2023-03-11 20:45 iailab 阅读(345) 评论(0) 推荐(0)

【强化学习的数学原理】课程笔记（一）——基本概念

摘要：目录 1. 引言2. 基本概念3. MDP3.1 MDP的关键要素3.2 举例说明：本内容为个人自用学习笔记，整理自b站西湖大学赵世钰老师的【强化学习的数学原理】课程，特别感谢老师分享讲解如此清楚的课程。 1. 引言前两本书偏文字性介绍，后两本具有较强的数学性，较为难懂！监督学习、无监督学习主阅读全文

posted @ 2023-03-11 20:38 iailab 阅读(273) 评论(0) 推荐(0)

2023年1月7日

windows系统下pip和conda换源

摘要：目录 1. 国内常用源1.1 pip1.2 conda 2. 换源方式2.1 pip换源方式2.2 conda换源方式 1. 国内常用源 1.1 pip # 阿里云 http://mirrors.aliyun.com/pypi/simple/ # 豆瓣(douban) http://pypi.dou 阅读全文

posted @ 2023-01-07 21:23 iailab 阅读(541) 评论(0) 推荐(0)

2022年10月10日

Ubuntu18.04 安装NVIDIA显卡驱动、Anaconda、PyTorch1.7.1

摘要： Ubuntu18.04 安装NVIDIA驱动、Anaconda、pytorch1.71 目录 Ubuntu18.04 安装NVIDIA驱动、Anaconda、pytorch1.711. NVIDIA显卡驱动安装1.1 驱动选择1.2 驱动安装 2. Anaconda安装2.1 下载2.2 安装2.3 阅读全文

posted @ 2022-10-10 23:30 iailab 阅读(127) 评论(0) 推荐(0)

初心小言

公告