DRL 深度强化学习 - 随笔分类 - Alan_Fire

论文：利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)

摘要：这是一篇被ICLR 2019 接收的论文。论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects)。举例来说，在「厨房」这一场景中，有一张图片显示「苹果」在冰箱的储物架上，同为水果的物体，如「橙子」，会出现阅读全文

posted @ 2019-05-21 14:18 Alan_Fire 阅读(1251) 评论(0) 推荐(0)

用强化学习做神经机器翻译

摘要：人工深度学习和神经网络已经为机器翻译带来了突破性的进展，强化学习也已经在游戏等领域取得了里程碑突破。中山大学数据科学与计算机学院和微软研究院的一项研究探索了强化学习在神经机器翻译领域的应用，相关论文已被 EMNLP 2018 接收，相关代码和数据集也已开源。论文地址：https://arxiv.o 阅读全文

posted @ 2018-12-04 17:36 Alan_Fire 阅读(1025) 评论(0) 推荐(0)

TensorFlow利用A3C算法训练智能体玩CartPole游戏

摘要：本教程讲解如何使用深度强化学习训练一个可以在 CartPole 游戏中获胜的模型。研究人员使用 tf.keras、OpenAI 训练了一个使用「异步优势动作评价」（Asynchronous Advantage Actor Critic，A3C）算法的智能体，通过 A3C 的实现解决了 CartPol 阅读全文

posted @ 2018-11-16 18:27 Alan_Fire 阅读(2680) 评论(0) 推荐(0)

伯克利推出「看视频学动作」的AI智能体

摘要：伯克利曾经提出 DeepMimic 框架，让智能体模仿参考动作片段来学习高难度技能。但这些参考片段都是经过动作捕捉合成的高度结构化数据，数据本身的获取需要很高的成本。而近日，他们又更进一步，提出了可以直接模仿 Youtube 视频人物高难度动作的新框架 SFV。从 YouTube 视频中学习技能的阅读全文

posted @ 2018-11-16 13:03 Alan_Fire 阅读(848) 评论(0) 推荐(0)

深度强化学习资源介绍

摘要：加拿大阿尔伯塔大学计算机系博士 Yuxi Li 的深度强化学习综述论文，该论文概述了在深度强化学习（Deep Reinforcement Learning）方面喜人的进展。而这本刚上线的《深度强化学习》手稿对前面的版本《深度强化学习综述》做了大规模的改进；从一年多前的 70 页扩充到现在的 150 阅读全文

posted @ 2018-11-16 12:36 Alan_Fire 阅读(451) 评论(0) 推荐(0)

Introducing Deep Reinforcement

摘要：The manuscript of Deep Reinforcement Learning is available now! It makes significant improvements to Deep Reinforcement Learning: An Overview, which h 阅读全文

posted @ 2018-11-16 12:22 Alan_Fire 阅读(344) 评论(0) 推荐(0)

伯克利、OpenAI等提出基于模型的元策略优化强化学习

摘要：基于模型的强化学习方法数据效率高，前景可观。本文提出了一种基于模型的元策略强化学习方法，实践证明，该方法比以前基于模型的方法更能够应对模型缺陷，还能取得与无模型方法相近的性能。引言强化学习领域近期取得的很多成就都是通过无模型强化学习算法 [1,2,3] 实现的。无模型（MF）算法倾向于实现最佳性阅读全文

posted @ 2018-11-13 23:03 Alan_Fire 阅读(337) 评论(0) 推荐(0)

强化学习在量化投资中应用（理论简介）

摘要：什么是强化学习？强化学习任务通常用马尔科夫决策过程（MarkovDecision Process,MDP）来描述：机器处于环境E中，状态空间为S，其中每个状态s∈S是机器给你知道的环境的描述；机器能采取的动作构成了动作空间A，若某个动作a∈A作用在当前状态s上，则潜在的转移函数P将使得环境从当前状阅读全文

posted @ 2018-11-13 13:53 Alan_Fire 阅读(1569) 评论(0) 推荐(0)

ICML论文｜阿尔法狗CTO讲座： AI如何用新型强化学习玩转围棋扑克游戏

摘要：今年8月，Demis Hassabis等人工智能技术先驱们将来到雷锋网“人工智能与机器人创新大会”。在此，我们为大家分享David Silver的论文《不完美信息游戏中的深度强化学习自我对战》。本篇论文主要以扑克进行实验，探讨深度强化学习与普通强化学习相比的优势。研究此类游戏不只是可以让程序打赢人类阅读全文

posted @ 2018-11-13 10:32 Alan_Fire 阅读(958) 评论(0) 推荐(0)

了解强化学习，这一篇就够了！

摘要：强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验. 从无到有强化学习是一类算法, 是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地阅读全文

posted @ 2018-10-30 17:23 Alan_Fire 阅读(1422) 评论(0) 推荐(0)

不设目标也能通关「马里奥」的AI算法，全靠好奇心学习

摘要：在强化学习中，设计密集、定义良好的外部奖励是很困难的，并且通常不可扩展。通常增加内部奖励可以作为对此限制的补偿，OpenAI、CMU 在本研究中更近一步，提出了完全靠内部奖励即好奇心来训练智能体的方法。在 54 个环境上的大规模实验结果表明：内在好奇心目标函数和手工设计的外在奖励高度一致；随机特征也阅读全文

posted @ 2018-10-21 23:18 Alan_Fire 阅读(278) 评论(0) 推荐(0)

EMNLP 2018 | 用强化学习做神经机器翻译：中山大学&MSRA填补多项空白

摘要：人工深度学习和神经网络已经为机器翻译带来了突破性的进展，强化学习也已经在游戏等领域取得了里程碑突破。中山大学数据科学与计算机学院和微软研究院的一项研究探索了强化学习在神经机器翻译领域的应用，相关论文已被 EMNLP 2018 接收，相关代码和数据集也已开源。论文地址：https://arxiv.o 阅读全文

posted @ 2018-10-21 01:38 Alan_Fire 阅读(434) 评论(0) 推荐(0)

在全景视频中预测头部运动：一种深度强化学习方法

摘要：阅读全文

posted @ 2018-10-18 14:19 Alan_Fire 阅读(362) 评论(0) 推荐(0)

谷歌推出新型强化学习框架Dopamine

摘要：今日，谷歌发布博客介绍其最新推出的强化学习新框架 Dopamine，该框架基于 TensorFlow，可提供灵活性、稳定性、复现性，以及快速的基准测试。 GitHub repo：https://github.com/google/dopamine 在过去几年里，强化学习研究取得了多方面的显著进展。这阅读全文

posted @ 2018-10-15 09:54 Alan_Fire 阅读(337) 评论(0) 推荐(0)

面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力

摘要：作者：Tony Peng 去年，OpenAI 的 1v1 AI 击败了世界顶尖选手 Dendi，OpenAI CTO Greg Brockman 承诺：明年，我们会带着 5v5 的 AI bot 重回 TI。今天，他们履行了诺言，带着全新的 OpenAI Five，意欲挑战全世界最顶尖的 Dota 阅读全文

posted @ 2018-10-01 23:28 Alan_Fire 阅读(761) 评论(1) 推荐(2)

复现一篇深度强化学习论文之前请先看了这篇文章！

摘要：去年，OpenAI和DeepMind联手做了当时最酷的实验，不用经典的奖励信号来训练智能体，而是根据人类反馈进行强化学习的新方法。有篇博客专门讲了这个实验 Learning from Human Preferences，原始论文是《 Deep Reinforcement Learning from 阅读全文

posted @ 2018-10-01 02:08 Alan_Fire 阅读(2919) 评论(0) 推荐(0)

DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control

摘要：1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向，研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物，比如蜜蜂。。DRL就是要干这个事，而是关键是使用神经网络来进行决策控制。因此，考虑了一下，决定推出D 阅读全文

posted @ 2018-10-01 01:08 Alan_Fire 阅读(346) 评论(0) 推荐(0)

DRL 教程 | 如何保持运动小车上的旗杆屹立不倒？TensorFlow利用A3C算法训练智能体玩CartPole游戏

摘要：本教程讲解如何使用深度强化学习训练一个可以在 CartPole 游戏中获胜的模型。研究人员使用 tf.keras、OpenAI 训练了一个使用「异步优势动作评价」（Asynchronous Advantage Actor Critic，A3C）算法的智能体，通过 A3C 的实现解决了 CartPol 阅读全文

posted @ 2018-10-01 01:05 Alan_Fire 阅读(631) 评论(0) 推荐(0)

强化学习是如何解决问题的？

摘要：强化学习是如何解决问题的？什么是强化学习算法呢，它离我们有多远？2016年和2017年最具影响力的AlphaGo大胜世界围棋冠军李世石和柯洁事件，其核心算法就用到了强化学习算法。相信很多人想了解或者转行研究强化学习算法或多或少都跟这两场赛事有联系。如今，强化学习继深度学习之后，成为学术界和工业界追阅读全文

posted @ 2018-10-01 01:02 Alan_Fire 阅读(1925) 评论(1) 推荐(0)

深度强化学习泡沫及路在何方？

摘要：一、深度强化学习的泡沫 2015年，DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1]，该论文提出了一个结合深度学习（DL）技术和强化学习（RL）思想的模型阅读全文

posted @ 2018-10-01 01:00 Alan_Fire 阅读(518) 评论(0) 推荐(0)

随笔分类 - DRL 深度强化学习