人工智能 - 随笔分类 - 陈煜弘

人工智能-实验一策略迭代和值迭代

摘要：1.实验问题在4x4矩阵中添加终点和障碍点，分别有一个或多个，并且满足以下属性：终点：value值不变，始终为0，邻接点可到达用大写字母E表示障碍点：表示该点在矩阵中“不存在”，邻接点不可到达该点，且该点没有value值跟状态，使用符号‘#’表示以任意除以上两种结点之外的所有其它结点为起点，阅读全文

posted @ 2017-04-02 23:20 陈煜弘阅读(3580) 评论(0) 推荐(0)

Lecture 3: Planning by Dynamic Programming

摘要：1.利用动态序列或时间分量去最优化一个问题的程序它是解决复杂问题的一种方法，通过分解子问题，解决子问题，组合子问题的解来实现 2.动态编程是解决包含以下属性问题的解决办法： 1）最优子结构最优应用原则和最优解能被分解成子问题 2）覆盖子问题子问题出现多次子问题的解可以被缓存和重复利用 3）M 阅读全文

posted @ 2017-03-31 19:01 陈煜弘阅读(329) 评论(0) 推荐(0)

Lecture 2: Markov Decision Processes

摘要：1.MDPs介绍 1）马尔可夫决策过程正式描述了强化学习的环境，并且环境是可观测的 2）当前状态完全刻画了整个过程 3）几乎所有的强化学习问题都可以描述成为MDPs,比如最优控制优先使用连续MDPs 部分可观测问题可以转换为MDPs “侠盗飞车”也是状态相关的MDPs 2.马尔可夫特性：即无记忆性阅读全文

posted @ 2017-03-31 15:51 陈煜弘阅读(444) 评论(0) 推荐(0)

博客园

陈煜弘

随笔分类 - 人工智能

公告