摘要: Deterministic Policy Gradient Algorithms 论文地址 "DPG" 笔记 出发点 首先最开始提出的policy gradient 算法是 stochastic的。 这里的随机是指随机策略$\pi_\theta(a|s)=P[a|s,;\theta]$. 但是随机策 阅读全文
posted @ 2020-01-03 19:45 木子士心王大可 阅读(1787) 评论(0) 推荐(0)
摘要: 给出 n 代表生成括号的对数,请你写出一个函数,使其能够生成所有可能的并且有效的括号组合。 例如,给出 n = 3,生成结果为: 来源:力扣(LeetCode) 链接:https://leetcode cn.com/problems/generate parentheses 用缓存 闭合数如此简洁 阅读全文
posted @ 2020-01-03 17:42 木子士心王大可 阅读(134) 评论(0) 推荐(0)
摘要: 将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 链接:https://leetcode cn.com/problems/merge two sorted lists/ 阅读全文
posted @ 2020-01-03 17:26 木子士心王大可 阅读(118) 评论(0) 推荐(0)
摘要: 给定一个只包括 '(',')','{','}','[',']' 的字符串,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。 左括号必须以正确的顺序闭合。 链接:https://leetcode cn.com/problems/valid parentheses 代码写的就 阅读全文
posted @ 2020-01-03 17:12 木子士心王大可 阅读(166) 评论(0) 推荐(0)