会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
初心小言
博客园
首页
新随笔
联系
订阅
管理
2023年3月14日
【强化学习的数学原理】课程笔记(四)——值迭代和策略迭代
摘要: 目录 1. 值迭代 Value Iteration2. 策略迭代 Policy Iteration3. 截断策略迭代 Truncated Policy Iteration3.1 Policy Interation and Value Interation3.2 Truncated Policy It
阅读全文
posted @ 2023-03-14 17:11 iailab
阅读(143)
评论(0)
推荐(0)
2023年3月13日
【强化学习的数学原理】课程笔记(三)——贝尔曼最优公式
摘要: 目录 1. 最优策略(optimal policy)的定义2. Bellman optimal policy(BOE)3. Rewrite Equation4. Contraction Mapping Theorem5. Solution6. Analyzing optimal policies 说
阅读全文
posted @ 2023-03-13 18:26 iailab
阅读(111)
评论(0)
推荐(0)
2023年3月11日
【强化学习的数学原理】课程笔记(二)——贝尔曼公式
摘要: 目录 1. return 的重要性2. state value3. bellman equation3.1 Bellman equation 的推导3.2 Matrix-vector form of the Bellman Equation3.3 利用 Bellman Equation 求解 Sta
阅读全文
posted @ 2023-03-11 20:45 iailab
阅读(246)
评论(0)
推荐(0)
【强化学习的数学原理】课程笔记(一)——基本概念
摘要: 目录 1. 引言2. 基本概念3. MDP3.1 MDP的关键要素3.2 举例 说明:本内容为个人自用学习笔记,整理自b站西湖大学赵世钰老师的【强化学习的数学原理】课程,特别感谢老师分享讲解如此清楚的课程。 1. 引言 前两本书偏文字性介绍,后两本具有较强的数学性,较为难懂! 监督学习、无监督学习主
阅读全文
posted @ 2023-03-11 20:38 iailab
阅读(162)
评论(0)
推荐(0)
2023年1月7日
windows系统下pip和conda换源
摘要: 目录 1. 国内常用源1.1 pip1.2 conda 2. 换源方式2.1 pip换源方式2.2 conda换源方式 1. 国内常用源 1.1 pip # 阿里云 http://mirrors.aliyun.com/pypi/simple/ # 豆瓣(douban) http://pypi.dou
阅读全文
posted @ 2023-01-07 21:23 iailab
阅读(376)
评论(0)
推荐(0)
2022年10月10日
Ubuntu18.04 安装NVIDIA显卡驱动、Anaconda、PyTorch1.7.1
摘要: Ubuntu18.04 安装NVIDIA驱动、Anaconda、pytorch1.71 目录 Ubuntu18.04 安装NVIDIA驱动、Anaconda、pytorch1.711. NVIDIA显卡驱动安装1.1 驱动选择1.2 驱动安装 2. Anaconda安装2.1 下载2.2 安装2.3
阅读全文
posted @ 2022-10-10 23:30 iailab
阅读(87)
评论(0)
推荐(0)
公告