会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
initial_h
https://github.com/initial-h
博客园
首页
新随笔
管理
07 2018 档案
《Playing hard exploration games by watching YouTube》论文解读
摘要:论文链接 油管链接 一、摘要 当环境奖励特别稀疏的时候,强化学习方法通常很难训练(traditionally struggle)。一个有效的方式是通过人类示范者(human demonstrator)提供模仿轨迹(imitate trajectories)来指导强化学习的探索方向,通常的做法是观看人
阅读全文
posted @
2018-07-28 12:53
initial_h
阅读(1267)
评论(0)
推荐(0)
RuntimeWarning: invalid value encountered in true_divide
摘要:这个问题可能是在使用numpy的时候出现了0除以0造成的。比如: 这里0/0的报错不具体,有时候不容易发现。如果是1/0这种,会有更加具体的错误信息。比如:
阅读全文
posted @
2018-07-25 16:17
initial_h
阅读(29712)
评论(0)
推荐(2)
MDP中值函数的求解
摘要:MDP概述 马尔科夫决策过程(Markov Decision Process)是强化学习(reinforcement learning)最基本的模型框架。它对序列化的决策过程做了很多限制。比如状态$S_t$和动作$a_t$只有有限个、$(S_t,a_t)$对应的回报$R_t$
阅读全文
posted @
2018-07-17 10:52
initial_h
阅读(4947)
评论(0)
推荐(1)
1. Two Sum (Python)
摘要:"1. Two Sum" Description Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that
阅读全文
posted @
2018-07-07 20:15
initial_h
阅读(945)
评论(0)
推荐(0)
公告