02 2019 档案

机器学习工程师 - Udacity 强化学习 Part Eight
摘要:八、深度Q-学习 1.神经网络作为值函数状态值函数将任何状态 s 映射到实数,表示根据当前策略 π 该状态的重要性。如果我们使用神经网络估算该函数,则输入需要以向量的形式提供进来。我们已经知道如何使用特征转换 x 执行这一步。现在输入可以经过神经网络。如果它旨在输出一个实数,即网络估算的值,那就与利 阅读全文

posted @ 2019-02-28 20:22 paulonetwo 阅读(354) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Seven
摘要:七、连续空间中的强化学习 1.复习强化学习强化学习问题通常都会转化为马尔可夫决策流程,简称 MDP。一个 MDP 由一组状态 S 动作 A 概率 P 奖励 R 和折扣因子 γ 组成。P 表示不同转换和奖励的发生频率,通常建模为单个联合概率。任何时间步 t+1 的状态和奖励仅依赖于在上个时间步 t 的 阅读全文

posted @ 2019-02-27 20:59 paulonetwo 阅读(412) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Six
摘要:项目:强化学习走迷宫 我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫! 请查看项目详情 https://github.com/udacity/MLND_CN_P5_Reinforcement_Learning Section 0 问题描述与完成项目流程 阅读全文

posted @ 2019-02-27 19:36 paulonetwo 阅读(1469) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Five
摘要:六、时间差分方法 1.给定一个策略,如何估算其值函数?在蒙特卡洛方法中,智能体以阶段形式与环境互动,一个阶段结束后,我们按顺序查看每个状态动作对,如果是首次经历,则计算相应的回报并使用它来更新动作值。我们经历了很多很多个阶段。需要注意的是,只要我们不在阶段之间更改策略,该算法就可以解决预测问题,只要 阅读全文

posted @ 2019-02-21 20:54 paulonetwo 阅读(679) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Four
摘要:五、蒙特卡洛方法 1.状态值 如果你想详细了解首次经历和所有经历 MC 方法之间的区别,建议你阅读此论文的第 3 部分。结果在第 3.6 部分进行了总结。作者指出: 所有经历 MC 存在偏差,而首次经历 MC 不存在偏差(请参阅 Theorems 6 和 7)。 一开始,所有经历 MC 具有更低的均 阅读全文

posted @ 2019-02-14 15:55 paulonetwo 阅读(830) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Three
摘要:四、动态规划1.在动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作。) 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测。尤其是,我们先假设每 阅读全文

posted @ 2019-02-13 19:09 paulonetwo 阅读(661) 评论(0) 推荐(0)

导航