CS294-112 深度强化学习秋季学期（伯克利）NO.9 Learning policies by imitating optimal controllers

make compromise between learnt policy and minimal cost！

π hat is using states

π theta is using observations

posted @ 2018-05-27 23:01 ecoflex 阅读(212) 评论(0) 收藏举报

刷新页面返回顶部