xxxuanei

2021年12月25日

什么是Lagrange Method, KKT Condtions, Dual Problem？

摘要： Lagrange Method for Constrained Optimization Generic constrained optimization problem: regional constraint: $x\in X$, 例如$x\geq 0$ functional constra 阅读全文

posted @ 2021-12-25 16:40 xxxuanei 阅读(267) 评论(2) 推荐(0)

2021年12月23日

什么是Experience Replay和Seperate Target Networks

摘要：什么是Experience Replay, Seperate Target Network 最近看到的一篇论文中提到的面对RL network不稳定甚至发散两个方法。 non-linear function approximator is unstable or even to diverge. I 阅读全文

posted @ 2021-12-23 15:31 xxxuanei 阅读(168) 评论(0) 推荐(0)

2021年12月22日

初识Proximal Policy Optimization (PPO)

摘要：什么是PPO 是一种off-policy 的 policy gradient。 PPO enables multiple epochs of minibatch updates. Importance Sampling 可以在q的distribution里sample data，不用直接从p里sam 阅读全文

posted @ 2021-12-22 20:05 xxxuanei 阅读(633) 评论(0) 推荐(0)

初识Actor-Critic

摘要：什么是Actor-Critic 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。现在看看Actor-Critic的论文继续了解一下。 Critic-Only and Actor-Only 这篇文章之前的算法是Critic-Only, or Actor-Only。 A 阅读全文

posted @ 2021-12-22 20:04 xxxuanei 阅读(273) 评论(0) 推荐(0)

2021年12月21日

DRL学习笔记

摘要：学习Deep Reinforcement Learning笔记也不能算是初识了，大二SRP的时候看过一点，还在博客记录了一下，但是现在对DRL的了解和完全不知道其实没差多少。所以现在系统一点看一些文章，对DRL构建一个大致的了解框架。 Background Machine Learning RL 阅读全文

posted @ 2021-12-21 16:25 xxxuanei 阅读(238) 评论(0) 推荐(0)

2021年12月20日

什么是Reinforcement Learning

摘要：看了看之前写的那篇博客，感觉并没有真的总结清楚DRL是什么，难怪我一直不懂什么是DRL，原来是以前就没学好，所以现在从RL开始了解了解，了解RL之后再去了解DRL。 setup大部分，还是来自原本的博客，加了点注释。reform了一下，懒得再打公式了。什么是RL 简介什么是MDP Markov 阅读全文

posted @ 2021-12-20 17:09 xxxuanei 阅读(344) 评论(0) 推荐(0)

2021年12月9日

初识Stackelberg Game

摘要：初识Stackelberg games 什么是Stackelberg game A stackelberg game is a two-player extensive game with perfect information. 两个player分别是leader和follower, Leader 阅读全文

posted @ 2021-12-09 17:05 xxxuanei 阅读(634) 评论(0) 推荐(0)

2021年12月2日

初识Auction Theory

摘要：什么是Auction Theory 意义：解决信息不对称或不完全条件下，如何设计契约来处理各种激励与管制问题。几种常见拍卖形式英式拍卖：升价拍卖，最后价高者胜。荷兰式拍卖：降价拍卖，第一个接受价格的人胜。密封拍卖：每个人都对拍品单独报价，相互不知底细，封在信封里交上去，最后由拍卖师拆开信封。阅读全文

posted @ 2021-12-02 20:13 xxxuanei 阅读(276) 评论(0) 推荐(0)

2021年8月19日

【Go】【Http】Go实现Http相关知识点

摘要： Web Client Server 几个概念概念解释 Request 用户请求的信息，用来解析用户的请求 Response 服务器返回给Client的信息 Conn 用户的每次请求链接 Handler 处理请求和生成返回信息的处理逻辑 Multiplexer：server接受request的过程阅读全文

posted @ 2021-08-19 11:36 xxxuanei 阅读(173) 评论(0) 推荐(0)

【Git】Git相关开发流程

摘要： fork的两种主要工作流程：一.fork并且更新一个仓库现在有这样一种情形：有一个叫做Joe的程序猿写了一个游戏程序，而你可能要去改进它。并且Joe将他的代码放在了GitHub仓库上。下面是你要做的事情： fork并且更新GitHub仓库的图表演示 Fork他的仓库：这是GitHub操作，这个操阅读全文

posted @ 2021-08-19 11:30 xxxuanei 阅读(127) 评论(0) 推荐(0)

愿全世界无产者和被压迫民族联合起来

公告