2019 年 2月随笔档案 - paulonetwo

机器学习工程师 - Udacity 强化学习 Part Eight

摘要：八、深度Q-学习 1.神经网络作为值函数状态值函数将任何状态 s 映射到实数，表示根据当前策略 π 该状态的重要性。如果我们使用神经网络估算该函数，则输入需要以向量的形式提供进来。我们已经知道如何使用特征转换 x 执行这一步。现在输入可以经过神经网络。如果它旨在输出一个实数，即网络估算的值，那就与利阅读全文

posted @ 2019-02-28 20:22 paulonetwo 阅读(354) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Seven

摘要：七、连续空间中的强化学习 1.复习强化学习强化学习问题通常都会转化为马尔可夫决策流程，简称 MDP。一个 MDP 由一组状态 S 动作 A 概率 P 奖励 R 和折扣因子 γ 组成。P 表示不同转换和奖励的发生频率，通常建模为单个联合概率。任何时间步 t+1 的状态和奖励仅依赖于在上个时间步 t 的阅读全文

posted @ 2019-02-27 20:59 paulonetwo 阅读(412) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Six

摘要：项目：强化学习走迷宫我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫！请查看项目详情 https://github.com/udacity/MLND_CN_P5_Reinforcement_Learning Section 0 问题描述与完成项目流程阅读全文

posted @ 2019-02-27 19:36 paulonetwo 阅读(1469) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Five

摘要：六、时间差分方法 1.给定一个策略，如何估算其值函数？在蒙特卡洛方法中，智能体以阶段形式与环境互动，一个阶段结束后，我们按顺序查看每个状态动作对，如果是首次经历，则计算相应的回报并使用它来更新动作值。我们经历了很多很多个阶段。需要注意的是，只要我们不在阶段之间更改策略，该算法就可以解决预测问题，只要阅读全文

posted @ 2019-02-21 20:54 paulonetwo 阅读(679) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Four

摘要：五、蒙特卡洛方法 1.状态值如果你想详细了解首次经历和所有经历 MC 方法之间的区别，建议你阅读此论文的第 3 部分。结果在第 3.6 部分进行了总结。作者指出：所有经历 MC 存在偏差，而首次经历 MC 不存在偏差（请参阅 Theorems 6 和 7）。一开始，所有经历 MC 具有更低的均阅读全文

posted @ 2019-02-14 15:55 paulonetwo 阅读(830) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Three

摘要：四、动态规划1.在动态规划设置中，智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。（这比强化学习设置简单多了，在强化学习设置中，智能体一开始不知道环境如何决定状态和奖励，必须完全通过互动学习如何选择动作。） 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测。尤其是，我们先假设每阅读全文

posted @ 2019-02-13 19:09 paulonetwo 阅读(661) 评论(0) 推荐(0)

paulonetwo

02 2019 档案