摘要: 1. 实验要求 题目:计算最佳策略 在下面例子基础上,自行设计一个问题(例如:求解某两点之间的最短路径, 或是在图中加一些障碍物,计算最短路径), 给出该问题对应的 MDP 模型描述, 然后分别使用 value iteration 和 policy iteration 算法计算出最佳策略。 2.实验 阅读全文
posted @ 2017-04-02 20:36 宋小环 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 1. 实验要求 题目:计算最佳策略 在下面例子基础上,自行设计一个问题(例如:求解某两点之间的最短路径, 或是在图中加一些障碍物,计算最短路径), 给出该问题对应的 MDP 模型描述, 然后分别使用 value iteration 和 policy iteration 算法计算出最佳策略。 2.实验 阅读全文
posted @ 2017-04-02 20:36 宋小环 阅读(3152) 评论(0) 推荐(0) 编辑