摘要:
Prioritized Experience Replay: PER 论文地址 "PER" 笔记 PER的基本思路跟传统强化学习里面的Prioritized Sweeping基本一样。就是从replay buffer中sample的时候按照优先级sample,优先级用transition 的TD e 阅读全文
posted @ 2019-12-31 22:22
木子士心王大可
阅读(1288)
评论(0)
推荐(1)
摘要:
Dueling Network Architectures for Deep Reinforcement Learning 论文地址 "DuelingDQN" 笔记 基本思路就是$Q(s,a)$的值既和state有关,又和action有关。但是两种"有关"的程度不一样,或者说影响力不一样。 对于$Q 阅读全文
posted @ 2019-12-31 19:27
木子士心王大可
阅读(1141)
评论(0)
推荐(0)
摘要:
给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。 题目: https://leetcode cn.com/problems/longest palindromic substring/submissions/ 写的不好,不容宜写剪枝。太耗时了。 阅读全文
posted @ 2019-12-31 19:00
木子士心王大可
阅读(149)
评论(0)
推荐(0)
摘要:
链接:https://leetcode cn.com/problems/median of two sorted arrays 给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。 你可以假设 阅读全文
posted @ 2019-12-31 18:09
木子士心王大可
阅读(143)
评论(0)
推荐(0)
摘要:
Deep Recurrent Q Learning for Partially Observable MDPs 论文地址 "DRQN" 笔记 DQN 每一个decision time 需要该时刻前4个frame 来获得完整的状态信息。但是有的游戏四张图片也不能获取完整的状态信息。所以这篇论文就希望使 阅读全文
posted @ 2019-12-31 17:09
木子士心王大可
阅读(1345)
评论(0)
推荐(0)
摘要:
"题目链接" 给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度 阅读全文
posted @ 2019-12-31 13:51
木子士心王大可
阅读(140)
评论(0)
推荐(0)
摘要:
Deep Reinforcement Learning with Double Q learning 论文地址: "Double DQN" "Double Q learning" 笔记 在传统强化学习领域里面,学者们已经认识到了Q learning 存在overestimate的问题。overest 阅读全文
posted @ 2019-12-31 13:19
木子士心王大可
阅读(849)
评论(0)
推荐(0)
摘要:
总结一下自己入坑强化学习的经验。 在入坑之前,自己对强化学习基本一无所知,所以对于强化学习的学习基本上是从零开始。 下面总结一下自己学习强化学习所看的网课,教材,论文,代码 网课 "莫烦的强化学习教程" 。这个教程真的是通俗易懂,完全针对初学者,也有配套的代码。不过讲解的内容不是很深。快速看一遍就行 阅读全文
posted @ 2019-12-31 12:07
木子士心王大可
阅读(741)
评论(0)
推荐(0)

浙公网安备 33010602011771号