会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
feifanren
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
19
20
21
22
23
24
25
26
27
···
54
下一页
2020年8月16日
强化学习学习笔记(1):MDPs and Bellman Equations
摘要: #学习目标 1.了解Agent-Environment交互 2.了解什么是MDP(马尔可夫决策过程)以及如何解释过渡图 3.了解价值函数,动作价值函数和策略函数 4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程 1.智能体和环境交互:智能体在每个步骤t接收状态S_t,执行动
阅读全文
posted @ 2020-08-16 14:43 feifanren
阅读(256)
评论(0)
推荐(0)
2020年8月9日
强化学习学习笔记(5):
摘要: 在前面的介绍中,我们都是使用参数θ近似动作值或状态值函数, $\begin {V_\theta }\left( s \right) \approx {V^\pi }\left( s \right) \ {Q_\theta }\left( {s,a} \right) \approx {Q^\pi }\
阅读全文
posted @ 2020-08-09 22:04 feifanren
阅读(251)
评论(0)
推荐(0)
2020年8月8日
强化学习实战(四):Sarsa and Q-learning
摘要: 下面显示的插图是标准的网格世界,具有开始状态和目标状态,但有一个区别:在网格的中间向上有一个侧风。 这些动作是标准的四个动作-上,下,右和左-但在中间区域,结果产生的下一个状态通过“风”向上移动,其强度随列的不同而变化。 风的强度在每列下方给出,以向上移动的单元数为单位。例如,如果您位于目标右侧的一
阅读全文
posted @ 2020-08-08 20:09 feifanren
阅读(211)
评论(0)
推荐(0)
强化学习学习笔记(四):具有时差(TD)和Q学习的无模型预测与控制
摘要: #学习目标 1.了解TD(0)进行预测 2.了解SARSA对策略的控制 3.了解Q-Learning以进行异策略控制 4.了解TD算法相对于MC和DP方法的优势 5.了解n步方法如何统一MC和TD方法 6.了解TD-Lambda的前后视图 #总结 1.D-Learning是Monte Carlo和动
阅读全文
posted @ 2020-08-08 17:06 feifanren
阅读(457)
评论(0)
推荐(0)
2020年8月6日
强化学习学习笔记(三)-蒙特卡洛(MC)的无模型预测和控制
摘要: #学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境(MDP)。 在实践中,我们通常对
阅读全文
posted @ 2020-08-06 16:42 feifanren
阅读(817)
评论(0)
推荐(0)
2020年8月4日
强化学习学习笔记(二)-基于模型的动态规划方法
摘要: #基于模型的动态规划算法 动态规划方法的动态一词指的是问题的顺序或时间组成部分,规划一词指优化一个“程序”,即策略。动态规划是解决复杂问题的一种方法。复杂问题可以分解为很多子问题,解决子问题并把这些子问题结合一起。 动态规划假定完全了解MDP,即已知环境模型。可以用于一个MDP的规划。 动态规划(D
阅读全文
posted @ 2020-08-04 14:54 feifanren
阅读(615)
评论(0)
推荐(0)
2020年8月3日
python调用另一个.py文件中的类和函数
摘要: python调用另一个.py文件中的类和函数 同一文件夹下的调用 1.调用函数 A.py文件如下: def add(x,y): print('和为:%d'%(x+y)) 在B.py文件中调用A.py的add函数如下: import A A.add(1,2) 或 from A import add a
阅读全文
posted @ 2020-08-03 15:47 feifanren
阅读(4560)
评论(0)
推荐(1)
2020年8月2日
强化学习实战(1):gridworld
摘要: 参考:https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中给出了一个简单的例子:Gridworld, 以帮助我们理解finite MDPs, 同时也求解了该问题的贝尔曼期望方程和贝尔曼最优方程.
阅读全文
posted @ 2020-08-02 20:34 feifanren
阅读(1813)
评论(0)
推荐(0)
2020年7月29日
强化学习实战
摘要: https://bigquant.com/community/t/topic/121181
阅读全文
posted @ 2020-07-29 17:31 feifanren
阅读(171)
评论(0)
推荐(0)
2020年7月25日
模型预测控制介绍
摘要: 模型预测控制在实现过程中有3个关键步骤,一般被称为3项基本原理,分别是预测模型、滚动优化和反馈校正。以下分别对这3项基本原理进行介绍。 预测模型:预测模型是模型预测控制的基础。其主要功能是根据对象的历史信息和未来输入,预测系统未来的输出。对预测模型的形式没有做严格的限定,状态方程、传递函数这类传统的
阅读全文
posted @ 2020-07-25 20:46 feifanren
阅读(1970)
评论(0)
推荐(0)
上一页
1
···
19
20
21
22
23
24
25
26
27
···
54
下一页
公告