JinyuBlog

2018年7月11日

摘要： $\gamma$ $$ \alpha = \sum_{i = 1}^{N} \left(M_{i} + \frac{x_i}{p} \right) $$ 阅读全文

posted @ 2018-07-11 13:45 JinyuBlog 阅读(231) 评论(0) 推荐(0)

摘要：推荐阅读顺序： Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程动态编程笔记 Dynamic programming in Python 本篇马尔可夫决策过程马尔可夫决策（MDP）过程为强化学习（RL）提供了理论基础，而动态编阅读全文

posted @ 2018-07-11 13:25 JinyuBlog 阅读(5362) 评论(0) 推荐(1)

2018年7月4日

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

摘要：本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法，涉及理论部分较少，所以请先阅读Reinforcement Learning: An Introduction (Drfit) 的2.7，2.8的内容。为了更深入一点了解UCB策略，可以随后阅阅读全文

posted @ 2018-07-04 10:21 JinyuBlog 阅读(2332) 评论(0) 推荐(0)

2018年7月2日

【RL系列】Multi-Armed Bandit笔记补充（二）

摘要：本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充，主要探讨UCB方法的由来与相关公式的推导。 UCB是一种动作选择策略，主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上，我认为下面这篇文章写的还不错，深入浅出，只阅读全文

posted @ 2018-07-02 20:35 JinyuBlog 阅读(571) 评论(0) 推荐(0)

【RL系列】Multi-Armed Bandit笔记补充（一）

摘要：在此之前，请先阅读上一篇文章：【RL系列】Multi-Armed Bandit笔记本篇的主题就如标题所示，只是上一篇文章的补充，主要关注两道来自于Reinforcement Learning: An Introduction 的课后习题。第一题为Exercise 2.5 (programming 阅读全文

posted @ 2018-07-02 14:07 JinyuBlog 阅读(527) 评论(0) 推荐(0)

2018年6月29日

【RL系列】Multi-Armed Bandit问题笔记

摘要：这是我学习Reinforcement Learning的一篇记录总结，参考了这本介绍RL比较经典的Reinforcement Learning: An Introduction (Drfit) 。这本书的正文部分对理论的分析与解释做的非常详细，并且也给出了对结论详尽的解析，但是把问题的解决和实现都留阅读全文

posted @ 2018-06-29 10:56 JinyuBlog 阅读(6527) 评论(0) 推荐(1)

2018年5月31日

Python+Opencv实现把图片转为视频

摘要：在此记录一下python实现图片转视频的方法，opencv速度还是比较块的，1300张400x400图片只花了1.5s 阅读全文

posted @ 2018-05-31 17:52 JinyuBlog 阅读(31007) 评论(0) 推荐(2)

从一个简单的寻路问题深入Q-learning

摘要：本篇文章主要从一个简单的寻路问题开始逐步的探究Q-learning的实现并深入Q-Table在数学上的收敛问题。阅读全文

posted @ 2018-05-31 12:20 JinyuBlog 阅读(1138) 评论(0) 推荐(0)

公告