随笔分类 - 强化学习
摘要:前言 在本篇文章中将介绍奖励与策略结构相关的知识,这一部分是强化学习的极重要一部分,因此会有较长篇幅介绍。 奖励 奖励是代理不断完善自己,使自己能够自主实现目标的直接经验来源。代理通过接受来自环境奖励判断自己行为地好坏,从而通过更大可能的选择收益高的行为使自己趋于目标状态。好比老师为你的行为打的分数
阅读全文
摘要:前言 接下来会对环境进行阐述,该文章内容和较少,但为保证系列文章完整性因此考虑独立写出来。 环境的概述 在前面的文章中提到,环境是代理玩耍的场所,代理做出动作作用于环境,环境会像一个老师对代理所做的动作打分(奖励Reward),同时代理可以观察环境得到状态,也叫观察。 环境分类 环境主要有两大类,物
阅读全文
摘要:背景 强化学习是机器学习三大分支之一,除去强化学习外,还有监督式学习和非监督式学习,虽然本系列文章主要介绍强化学习,但是了解另外两类的特点还都是很有必要。本系列的文章首先整体介绍强化学习的相关知识,然后是相关的算法,第一个算法是Q-Learning。 监督式学习 监督式学习好比有一位老师告诉机器某个
阅读全文

浙公网安备 33010602011771号