摘要: Lagrange Method for Constrained Optimization Generic constrained optimization problem: regional constraint: \(x\in X\), 例如$x\geq 0$ functional constra 阅读全文
posted @ 2021-12-25 16:40 xxxuanei 阅读(150) 评论(2) 推荐(0) 编辑
摘要: 什么是Experience Replay, Seperate Target Network 最近看到的一篇论文中提到的面对RL network不稳定甚至发散两个方法。 non-linear function approximator is unstable or even to diverge. I 阅读全文
posted @ 2021-12-23 15:31 xxxuanei 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 什么是PPO 是一种off-policy 的 policy gradient。 PPO enables multiple epochs of minibatch updates. Importance Sampling 可以在q的distribution里sample data,不用直接从p里sam 阅读全文
posted @ 2021-12-22 20:05 xxxuanei 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 什么是Actor-Critic 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。 现在看看Actor-Critic的论文继续了解一下。 Critic-Only and Actor-Only 这篇文章之前的算法是Critic-Only, or Actor-Only。 A 阅读全文
posted @ 2021-12-22 20:04 xxxuanei 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 学习Deep Reinforcement Learning笔记 也不能算是初识了,大二SRP的时候看过一点,还在博客记录了一下,但是现在对DRL的了解和完全不知道其实没差多少。 所以现在系统一点看一些文章,对DRL构建一个大致的了解框架。 Background Machine Learning RL 阅读全文
posted @ 2021-12-21 16:25 xxxuanei 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 看了看之前写的那篇博客,感觉并没有真的总结清楚DRL是什么,难怪我一直不懂什么是DRL,原来是以前就没学好,所以现在从RL开始了解了解,了解RL之后再去了解DRL。 setup大部分,还是来自原本的博客,加了点注释。reform了一下,懒得再打公式了。 什么是RL 简介 什么是MDP Markov 阅读全文
posted @ 2021-12-20 17:09 xxxuanei 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 初识Stackelberg games 什么是Stackelberg game A stackelberg game is a two-player extensive game with perfect information. 两个player分别是leader和follower, Leader 阅读全文
posted @ 2021-12-09 17:05 xxxuanei 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 什么是Auction Theory 意义:解决信息不对称或不完全条件下,如何设计契约来处理各种激励与管制问题。 几种常见拍卖形式 英式拍卖:升价拍卖,最后价高者胜。 荷兰式拍卖:降价拍卖,第一个接受价格的人胜。 密封拍卖:每个人都对拍品单独报价,相互不知底细,封在信封里交上去,最后由拍卖师拆开信封。 阅读全文
posted @ 2021-12-02 20:13 xxxuanei 阅读(130) 评论(0) 推荐(0) 编辑
摘要: Web Client Server 几个概念 概念 解释 Request 用户请求的信息,用来解析用户的请求 Response 服务器返回给Client的信息 Conn 用户的每次请求链接 Handler 处理请求和生成返回信息的处理逻辑 Multiplexer:server接受request的过程 阅读全文
posted @ 2021-08-19 11:36 xxxuanei 阅读(123) 评论(0) 推荐(0) 编辑
摘要: fork的两种主要工作流程: 一.fork并且更新一个仓库 现在有这样一种情形:有一个叫做Joe的程序猿写了一个游戏程序,而你可能要去改进它。并且Joe将他的代码放在了GitHub仓库上。下面是你要做的事情: fork并且更新GitHub仓库的图表演示 Fork他的仓库:这是GitHub操作,这个操 阅读全文
posted @ 2021-08-19 11:30 xxxuanei 阅读(91) 评论(0) 推荐(0) 编辑