2017 年 6月随笔档案 - 数据小虾米

增强学习 | 多臂赌博机模型进阶

摘要：“模型是一个框架，用来描述分析者感兴趣的研究对象” 上文【增强学习 | 多臂赌博机模型】介绍了基本的多臂赌博机模型，即单步动作会根据反馈直接作出决策，因此多臂赌博机的目标是学习策略函数，以产生最优的执行动作。介绍了两种学习最优策略的方法，一是使用平均累积函数，二是使用神经网络拟合。相比下，神经网络具阅读全文

posted @ 2017-06-30 22:41 数据小虾米阅读(959) 评论(0) 推荐(0)

增强学习 | 多臂赌博机模型

摘要：探索的终点是真理上文介绍了了增强学习的基本框架，一个完整的增强学习框架包括状态、动作、回报、环境等基本概念，其对应的任务问题有三个主要特点：不同的动作会有不同的回报；回报是随时间延迟累积的；行动回报与环境状态是相关的。对于一些简单的增强学习任务，往往并不需要满足特点2和特点3，将这类问题称阅读全文

posted @ 2017-06-24 09:11 数据小虾米阅读(713) 评论(0) 推荐(0)

增强学习 | AlphaGo背后的秘密

摘要：“敢于尝试，才有突破” 2017年5月27日，当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败。该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能，借此机会，介绍一下AlphaGo背后的秘密——增强学习技术。增强学习（Reinforcement Learning），也称阅读全文

posted @ 2017-06-10 18:34 数据小虾米阅读(506) 评论(0) 推荐(0)

数据小虾米

06 2017 档案

增强学习 | 多臂赌博机模型进阶

增强学习 | 多臂赌博机模型

增强学习 | AlphaGo背后的秘密

公告

导航