摘要:        
时间线: OpenAI 发表的 Trust Region Policy Optimization, Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号,抢在 OpenAI 前面 把 Distributed PPO给先发布了. OpenAI 还是在 2017年7    阅读全文
posted @ 2019-01-11 21:47
乐乐章
阅读(7208)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Asynchronous Advantage Actor-Critic (A3C) 在RL任务中,我们本质上最终要学习的是策略(Policy) value-based方法:间接方法,即通过学习值函数(value function)或者动作值函数(action-value function)来得到po    阅读全文
posted @ 2019-01-11 17:27
乐乐章
阅读(912)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Given a non-negative index k where k ≤ 33, return the kth index row of the Pascal's triangle. Note that the row index starts from 0. In Pascal's trian    阅读全文
posted @ 2019-01-11 13:40
乐乐章
阅读(122)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Given a non-negative integer numRows, generate the first numRows of Pascal's triangle. In Pascal's triangle, each number is the sum of the two numbers    阅读全文
posted @ 2019-01-11 13:18
乐乐章
阅读(109)
评论(0)
推荐(0)
        
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号