摘要:
上一节课《通过DP求解》可以解决一个已知的马尔科夫决策过程
本节课
实践无模型预测
解决或者估计一个未知马尔科夫决策过程的价值函数
下一节课
实现无模型决策(Model-free control)
最优化一个马尔科夫决策过程的价值函数 阅读全文
摘要:
动态(Dynamic):序列性又或是时序性的问题部分
规划(Programming):最优化一个程序(Program),i.e 一种策略
线性规划(Linear Programming)
显然马尔科夫决策过程就符合动态规划的顺序 阅读全文