强化学习 - 随笔分类 - 乐乐章

《DRN: A Deep Reinforcement Learning Framework for News Recommendation》强化学习推荐系统

摘要：摘要新闻推荐系统中，新闻具有很强的动态特征（dynamic nature of news features），目前一些模型已经考虑到了动态特征。一：他们只处理了当前的奖励（ctr）;、二：有一些模型利用了用户的反馈，如用户返回的频率。（user feedback other than clic 阅读全文

posted @ 2019-03-05 13:27 乐乐章阅读(2659) 评论(0) 推荐(0)

DoubleDQN---tensorflow实现

摘要：完整代码：https://github.com/zle1992/Reinforcement_Learning_Game 开山之作：《Playing Atari with Deep Reinforcement Learning》（NIPS） http://export.arxiv.org/pdf/1 阅读全文

posted @ 2019-01-18 13:29 乐乐章阅读(1668) 评论(0) 推荐(0)

愤怒的小鸟强化学习

摘要：https://github.com/yenchenlin/DeepLearningFlappyBird https://pypi.org/project/gym-tetris/ https://github.com/openai/gym/wiki/Leaderboard#breakout-v0 h 阅读全文

posted @ 2019-01-14 15:48 乐乐章阅读(861) 评论(1) 推荐(0)

强化学习--DeepQnetwork 的一些改进

摘要：Double DQN 算Q值与选Q值是分开的，2个网络。 Multi-step Dueling DQN 如果更新了，即使有的action没有被采样到，也会更新Q值 Prioritized Reply Noisy Net Epsilon Greedy 存在的问题是在一局游戏中，即使是同一个agen 阅读全文

posted @ 2019-01-14 15:10 乐乐章阅读(545) 评论(0) 推荐(0)

强化学习---TRPO/DPPO/PPO/PPO2

摘要：时间线： OpenAI 发表的 Trust Region Policy Optimization, Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号，抢在 OpenAI 前面把 Distributed PPO给先发布了. OpenAI 还是在 2017年7 阅读全文

posted @ 2019-01-11 21:47 乐乐章阅读(7206) 评论(0) 推荐(0)

强化学习---A3C

摘要：Asynchronous Advantage Actor-Critic (A3C) 在RL任务中，我们本质上最终要学习的是策略（Policy） value-based方法：间接方法，即通过学习值函数（value function）或者动作值函数（action-value function）来得到po 阅读全文

posted @ 2019-01-11 17:27 乐乐章阅读(912) 评论(0) 推荐(0)

强化学习--DDPG---tensorflow实现

摘要：完整代码：https://github.com/zle1992/Reinforcement_Learning_Game 论文《Continuous control with deep reinforcement learning》https://arxiv.org/pdf/1509.02971.pd 阅读全文

posted @ 2019-01-09 22:41 乐乐章阅读(4511) 评论(0) 推荐(0)

强化学习--Actor-Critic---tensorflow实现

摘要：完整代码：https://github.com/zle1992/Reinforcement_Learning_Game Policy Gradient 可以直接预测出动作，也可以预测连续动作，但是无法单步更新。 QLearning 先预测出Q值，根据Q值选动作，无法预测连续动作、或者动作种类多的情况阅读全文

posted @ 2019-01-09 12:12 乐乐章阅读(2149) 评论(0) 推荐(0)

DeepNetwork---tensorflow实现

摘要：https://github.com/zle1992/Reinforcement_Learning_Game 主函数阅读全文

posted @ 2019-01-08 22:37 乐乐章阅读(583) 评论(0) 推荐(0)

强化学习--QLearning

摘要：1.概述： QLearning基于值函数的方法，不同与policy gradient的方法，Qlearning是预测值函数，通过值函数来选择值函数最大的action，而policy gradient直接预测出action。 Q-learning 是一种基于值函数估计的强化学习方法，Policy G 阅读全文

posted @ 2019-01-08 14:46 乐乐章阅读(860) 评论(0) 推荐(0)

强化学习--Policy Gradient

摘要：Policy Gradient综述： Policy Gradient，通过学习当前环境，直接给出要输出的动作的概率值。 Policy Gradient 不是单步更新，只能等玩完一个epoch，再更新参数，采取动作与动作评价是同一个函数，所以是一个on-policy Policy Gradient 需阅读全文

posted @ 2019-01-05 20:59 乐乐章阅读(1982) 评论(0) 推荐(0)

乐乐章

NLP/推荐我很菜

随笔分类 - 强化学习

公告

乐乐章

NLP/推荐 我很菜

随笔分类 - 强化学习

公告

NLP/推荐我很菜