03 2019 档案

机器学习工程师 - Udacity 机器学习毕业项目 算式识别
摘要:算式识别(挑战项目) ...Previous weight data... ...Previous weight data... 100%|██████████████████████████████████████████████████████████████████████████| 8000 阅读全文

posted @ 2019-03-14 20:38 paulonetwo 阅读(741) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Eleven
摘要:十、行动者-评论者方法 1.行动者-评论者方法我们可以通过两大类别的方法解决强化学习问题。对于蒙特卡罗学习或 Q 学习等基于值的方法,我们会尝试表示每个状态或状态动作对的值,然后,根据任何状态我们可以选择具有最佳值的动作。如果你有数量有限的动作,这种方法很合适。另一方面,基于策略的方法会对从状态到动 阅读全文

posted @ 2019-03-13 20:47 paulonetwo 阅读(294) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Ten
摘要:九、策略梯度1.为何要使用基于策略的方法原因有三个方面:简单性,随机性策略和连续动作空间。在 Q 学习等基于值的方法中我们发明了值函数这一概念作为查找最优策略的中间步骤,它有助于我们将问题重新描述为更易于理解和学习的形式。但是如果我们的最终目标是查找最优策略,真的需要该值函数吗?可以直接估算最优策略 阅读全文

posted @ 2019-03-12 19:45 paulonetwo 阅读(334) 评论(0) 推荐(0)

机器学习工程师 - Udacity 强化学习 Part Nine
摘要:深度Q学习 TensorFlow实现 如果你想了解如何在其他 Python 框架中编写实现,请参阅: (Keras) https://keon.io/deep-q-learning/ (PyTorch) http://pytorch.org/tutorials/intermediate/reinfo 阅读全文

posted @ 2019-03-11 20:47 paulonetwo 阅读(701) 评论(0) 推荐(0)

导航