摘要: 在强化学习任务中,学习的目的就是找到能够长期累积奖赏最大化的策略。这里的策略实际上就相当于监督学习中的分类器或回归器,模型的形式并无差别。但不同的是,在强化学习中并没有监督学习中的有标记样本,换言之,没有人直接告诉机器在什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习。因 阅读全文
posted @ 2019-06-19 16:49 轩窗尘清 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即“变量关系图”。根据边的性质不同,概率图模型可大致分为两类: 1. 使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网; 2. 使用无向图 阅读全文
posted @ 2019-06-19 16:13 轩窗尘清 阅读(845) 评论(0) 推荐(0) 编辑
摘要: 让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。 要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。最常见的是“聚类假设”,即假设数据存在簇结构,同一个簇的样本属于同一类别。半监督学习中另一种常见的假设是“流形假设”,即假设数据分布在一 阅读全文
posted @ 2019-06-19 12:01 轩窗尘清 阅读(512) 评论(0) 推荐(0) 编辑