摘要:
无模型控制(Model-Free Control) 无模型预测概论 上一节课: 无模型预测 用于估计一个未知马尔科夫决策过程的价值函数 这节课 无模型控制 最优化一个未知马尔科夫决策过程的价值函数 一般在以下两种情况采用无模型预测 马尔科夫决策过程是未知的,仅能通过采用得到记录 马尔科夫决策过程是已 阅读全文
posted @ 2021-01-17 19:47
Uzuki
阅读(621)
评论(0)
推荐(0)
摘要:
上一节课《通过DP求解》可以解决一个已知的马尔科夫决策过程
本节课
实践无模型预测
解决或者估计一个未知马尔科夫决策过程的价值函数
下一节课
实现无模型决策(Model-free control)
最优化一个马尔科夫决策过程的价值函数 阅读全文
posted @ 2021-01-17 19:36
Uzuki
阅读(997)
评论(0)
推荐(0)
摘要:
动态(Dynamic):序列性又或是时序性的问题部分
规划(Programming):最优化一个程序(Program),i.e 一种策略
线性规划(Linear Programming)
显然马尔科夫决策过程就符合动态规划的顺序 阅读全文
posted @ 2021-01-17 18:09
Uzuki
阅读(633)
评论(0)
推荐(0)

浙公网安备 33010602011771号