随笔档案「2017年6月」 - JeromeTang

06 2017 档案

强化学习之智能出租车项目总结

摘要：项目介绍这是优达学院机器学习课程的第4个实习项目，需要训练智能出租车学习交通规则，然后安全可靠地到达目的地。项目通过循序渐进的方式展开，从熟悉基本的领域知识开始，再以随机动作来直观感受智能车的状态，也是在这一步，让初学者有了心潮澎湃的感觉，“车终于动了！”，是的，从0开始一路走来，以游戏闯关的方式阅读全文

posted @ 2017-06-22 17:50 JeromeTang 阅读(1665) 评论(0) 推荐(0)

马可夫决策过程（MDP）笔记1

摘要：表示方法一个基本马尔可夫决策过程由一个四元组构成M = (S, A, Psa, 𝑅)，和马可夫链不同，马可夫决策过程考虑了动作。如果同时考虑未来的回报相对于当前决策的重要程度，引入衰减因子（折合因子）r，则马可夫决策过程表达成一个五元组：M=(S, A, P, γ, R)。其中： 1. S S表阅读全文

posted @ 2017-06-13 10:00 JeromeTang 阅读(698) 评论(0) 推荐(0)

浮云之空

06 2017 档案

强化学习之智能出租车项目总结

马可夫决策过程（MDP）笔记1

导航

公告