2019 年 12月 31 日随笔档案 - 木子士心王大可

2019年12月31日

摘要： Prioritized Experience Replay: PER 论文地址 "PER" 笔记 PER的基本思路跟传统强化学习里面的Prioritized Sweeping基本一样。就是从replay buffer中sample的时候按照优先级sample,优先级用transition 的TD e 阅读全文

posted @ 2019-12-31 22:22 木子士心王大可阅读(1288) 评论(0) 推荐(1)

[强化学习论文笔记(4)]:DuelingDQN

摘要： Dueling Network Architectures for Deep Reinforcement Learning 论文地址 "DuelingDQN" 笔记基本思路就是$Q(s,a)$的值既和state有关，又和action有关。但是两种"有关"的程度不一样，或者说影响力不一样。对于$Q 阅读全文

posted @ 2019-12-31 19:27 木子士心王大可阅读(1141) 评论(0) 推荐(0)

leetcode(5)-最长回文子串

摘要：给定一个字符串 s，找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。题目: https://leetcode cn.com/problems/longest palindromic substring/submissions/ 写的不好,不容宜写剪枝。太耗时了。阅读全文

posted @ 2019-12-31 19:00 木子士心王大可阅读(149) 评论(0) 推荐(0)

leetcode(4)-寻找两个有序数组的中位数

摘要：链接：https://leetcode cn.com/problems/median of two sorted arrays 给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数，并且要求算法的时间复杂度为 O(log(m + n))。你可以假设阅读全文

posted @ 2019-12-31 18:09 木子士心王大可阅读(143) 评论(0) 推荐(0)

[强化学习论文笔记(3)]:DRQN

摘要： Deep Recurrent Q Learning for Partially Observable MDPs 论文地址 "DRQN" 笔记 DQN 每一个decision time 需要该时刻前４个frame 来获得完整的状态信息。但是有的游戏四张图片也不能获取完整的状态信息。所以这篇论文就希望使阅读全文

posted @ 2019-12-31 17:09 木子士心王大可阅读(1345) 评论(0) 推荐(0)

leetcode(3)-无重复字符的最长子串

摘要： "题目链接" 给定一个字符串，请你找出其中不含有重复字符的最长子串的长度阅读全文

posted @ 2019-12-31 13:51 木子士心王大可阅读(140) 评论(0) 推荐(0)

[强化学习论文笔记(2)]:DoubleDQN

摘要： Deep Reinforcement Learning with Double Q learning 论文地址： "Double DQN" "Double Q learning" 笔记在传统强化学习领域里面，学者们已经认识到了Q learning 存在overestimate的问题。overest 阅读全文

posted @ 2019-12-31 13:19 木子士心王大可阅读(849) 评论(0) 推荐(0)

强化学习入坑总结

摘要：总结一下自己入坑强化学习的经验。在入坑之前，自己对强化学习基本一无所知，所以对于强化学习的学习基本上是从零开始。下面总结一下自己学习强化学习所看的网课，教材，论文，代码网课 "莫烦的强化学习教程" 。这个教程真的是通俗易懂，完全针对初学者，也有配套的代码。不过讲解的内容不是很深。快速看一遍就行阅读全文

posted @ 2019-12-31 12:07 木子士心王大可阅读(741) 评论(0) 推荐(0)

李志琦的博客

公告