摘要:
时间线: OpenAI 发表的 Trust Region Policy Optimization, Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号,抢在 OpenAI 前面 把 Distributed PPO给先发布了. OpenAI 还是在 2017年7 阅读全文
posted @ 2019-01-11 21:47
乐乐章
阅读(7208)
评论(0)
推荐(0)
摘要:
Asynchronous Advantage Actor-Critic (A3C) 在RL任务中,我们本质上最终要学习的是策略(Policy) value-based方法:间接方法,即通过学习值函数(value function)或者动作值函数(action-value function)来得到po 阅读全文
posted @ 2019-01-11 17:27
乐乐章
阅读(912)
评论(0)
推荐(0)
摘要:
Given a non-negative index k where k ≤ 33, return the kth index row of the Pascal's triangle. Note that the row index starts from 0. In Pascal's trian 阅读全文
posted @ 2019-01-11 13:40
乐乐章
阅读(122)
评论(0)
推荐(0)
摘要:
Given a non-negative integer numRows, generate the first numRows of Pascal's triangle. In Pascal's triangle, each number is the sum of the two numbers 阅读全文
posted @ 2019-01-11 13:18
乐乐章
阅读(109)
评论(0)
推荐(0)

浙公网安备 33010602011771号