06 2017 档案

强化学习之智能出租车项目总结
摘要:项目介绍 这是优达学院机器学习课程的第4个实习项目,需要训练智能出租车学习交通规则,然后安全可靠地到达目的地。项目通过循序渐进的方式展开,从熟悉基本的领域知识开始,再以随机动作来直观感受智能车的状态,也是在这一步,让初学者有了心潮澎湃的感觉,“车终于动了!”,是的,从0开始一路走来,以游戏闯关的方式 阅读全文

posted @ 2017-06-22 17:50 JeromeTang 阅读(1665) 评论(0) 推荐(0)

马可夫决策过程(MDP)笔记1
摘要:表示方法 一个基本马尔可夫决策过程由一个四元组构成M = (S, A, Psa, 𝑅),和马可夫链不同,马可夫决策过程考虑了动作。如果同时考虑未来的回报相对于当前决策的重要程度,引入衰减因子(折合因子)r,则马可夫决策过程表达成一个五元组:M=(S, A, P, γ, R)。其中: 1. S S表 阅读全文

posted @ 2017-06-13 10:00 JeromeTang 阅读(698) 评论(0) 推荐(0)