06 2017 档案

增强学习 | 多臂赌博机模型进阶
摘要:“模型是一个框架,用来描述分析者感兴趣的研究对象” 上文【增强学习 | 多臂赌博机模型】介绍了基本的多臂赌博机模型,即单步动作会根据反馈直接作出决策,因此多臂赌博机的目标是学习策略函数,以产生最优的执行动作。介绍了两种学习最优策略的方法,一是使用平均累积函数,二是使用神经网络拟合。相比下,神经网络具 阅读全文

posted @ 2017-06-30 22:41 数据小虾米 阅读(959) 评论(0) 推荐(0)

增强学习 | 多臂赌博机模型
摘要:探索的终点是真理 上文介绍了了增强学习的基本框架,一个完整的增强学习框架包括状态、动作、回报、环境等基本概念,其对应的任务问题有三个主要特点: 不同的动作会有不同的回报; 回报是随时间延迟累积的; 行动回报与环境状态是相关的。 对于一些简单的增强学习任务,往往并不需要满足特点2和特点3,将这类问题称 阅读全文

posted @ 2017-06-24 09:11 数据小虾米 阅读(713) 评论(0) 推荐(0)

增强学习 | AlphaGo背后的秘密
摘要:“敢于尝试,才有突破” 2017年5月27日,当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败。该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能,借此机会,介绍一下AlphaGo背后的秘密——增强学习技术。 增强学习(Reinforcement Learning),也称 阅读全文

posted @ 2017-06-10 18:34 数据小虾米 阅读(506) 评论(0) 推荐(0)

导航