随笔分类 -  强化学习

摘要:摘要 新闻推荐系统中,新闻具有很强的动态特征(dynamic nature of news features),目前一些模型已经考虑到了动态特征。 一:他们只处理了当前的奖励(ctr);、 二:有一些模型利用了用户的反馈,如用户返回的频率。(user feedback other than clic 阅读全文
posted @ 2019-03-05 13:27 乐乐章 阅读(2659) 评论(0) 推荐(0)
摘要:完整代码:https://github.com/zle1992/Reinforcement_Learning_Game 开山之作: 《Playing Atari with Deep Reinforcement Learning》(NIPS) http://export.arxiv.org/pdf/1 阅读全文
posted @ 2019-01-18 13:29 乐乐章 阅读(1668) 评论(0) 推荐(0)
摘要:https://github.com/yenchenlin/DeepLearningFlappyBird https://pypi.org/project/gym-tetris/ https://github.com/openai/gym/wiki/Leaderboard#breakout-v0 h 阅读全文
posted @ 2019-01-14 15:48 乐乐章 阅读(861) 评论(1) 推荐(0)
摘要:Double DQN 算Q值 与选Q值是分开的,2个网络。 Multi-step Dueling DQN 如果更新了,即使有的action没有被采样到,也会更新Q值 Prioritized Reply Noisy Net Epsilon Greedy 存在的问题是在一局游戏中, 即使是同一个agen 阅读全文
posted @ 2019-01-14 15:10 乐乐章 阅读(545) 评论(0) 推荐(0)
摘要:时间线: OpenAI 发表的 Trust Region Policy Optimization, Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号,抢在 OpenAI 前面 把 Distributed PPO给先发布了. OpenAI 还是在 2017年7 阅读全文
posted @ 2019-01-11 21:47 乐乐章 阅读(7206) 评论(0) 推荐(0)
摘要:Asynchronous Advantage Actor-Critic (A3C) 在RL任务中,我们本质上最终要学习的是策略(Policy) value-based方法:间接方法,即通过学习值函数(value function)或者动作值函数(action-value function)来得到po 阅读全文
posted @ 2019-01-11 17:27 乐乐章 阅读(912) 评论(0) 推荐(0)
摘要:完整代码:https://github.com/zle1992/Reinforcement_Learning_Game 论文《Continuous control with deep reinforcement learning》https://arxiv.org/pdf/1509.02971.pd 阅读全文
posted @ 2019-01-09 22:41 乐乐章 阅读(4511) 评论(0) 推荐(0)
摘要:完整代码:https://github.com/zle1992/Reinforcement_Learning_Game Policy Gradient 可以直接预测出动作,也可以预测连续动作,但是无法单步更新。 QLearning 先预测出Q值,根据Q值选动作,无法预测连续动作、或者动作种类多的情况 阅读全文
posted @ 2019-01-09 12:12 乐乐章 阅读(2149) 评论(0) 推荐(0)
摘要:https://github.com/zle1992/Reinforcement_Learning_Game 主函数 阅读全文
posted @ 2019-01-08 22:37 乐乐章 阅读(583) 评论(0) 推荐(0)
摘要:1.概述: QLearning基于值函数的方法,不同与policy gradient的方法,Qlearning是预测值函数,通过值函数来选择 值函数最大的action,而policy gradient直接预测出action。 Q-learning 是一种基于值函数估计的强化学习方法,Policy G 阅读全文
posted @ 2019-01-08 14:46 乐乐章 阅读(860) 评论(0) 推荐(0)
摘要:Policy Gradient综述: Policy Gradient,通过学习当前环境,直接给出要输出的动作的概率值。 Policy Gradient 不是单步更新,只能等玩完一个epoch,再更新参数,采取动作与动作评价是同一个函数,所以是一个on-policy Policy Gradient 需 阅读全文
posted @ 2019-01-05 20:59 乐乐章 阅读(1982) 评论(0) 推荐(0)