LIN_KID

2020年4月1日

摘要： 1、在开头加上from \__future\__ import print_function这句之后，即使在python2.X，使用print就得像python3.X那样加括号使用。python2.X中print不需要括号，而在python3.X中则需要。 2、timeit模块 timeit可以在命阅读全文

posted @ 2020-04-01 10:20 LIN_KID 阅读(125) 评论(0) 推荐(0)

2020年3月5日

python小知识

摘要： 1、在开头加上from \__future\__ import print_function这句之后，即使在python2.X，使用print就得像python3.X那样加括号使用。python2.X中print不需要括号，而在python3.X中则需要。 2、timeit模块 timeit可以在命阅读全文

posted @ 2020-03-05 17:58 LIN_KID 阅读(197) 评论(0) 推荐(0)

2020年1月13日

Q \pi (\lambda)

摘要： Q(λ) with Off Policy Corrections 摘要我们提出并分析了一种off policy的多步骤时间TD学习的替代方法，其中off policy的回报是根据当前的Q函数在奖励方面进行校正，而不是根据目标策略在转移概率方面进行校正。我们证明，只要有一定条件，这种近似修正就足以在阅读全文

posted @ 2020-01-13 19:06 LIN_KID 阅读(729) 评论(0) 推荐(0)

2020年1月11日

GAE&reward shaping

摘要：策略算法(如TRPO,PPO)是一种流行的on policy方法。它可以提供无偏差的（或近似无偏差）梯度估计，但同时会导致高的方差。而像Q learning 和离线的actor critic(如DDPG)等off policy方法则可以用离线的样本来替代。它们可以使用其他学习过程产生的样本。这样的方阅读全文

posted @ 2020-01-11 16:45 LIN_KID 阅读(979) 评论(0) 推荐(0)

2019年11月19日

yield函数

摘要： https://blog.csdn.net/u011318077/article/details/93749143 阅读全文

posted @ 2019-11-19 10:16 LIN_KID 阅读(114) 评论(0) 推荐(0)

2019年9月26日

关于vs code和markdown

摘要： 1、下载了一些包在extension中下载 2、要修改css文档在preferance-->settings中查找setting.json，要修改预览的格式和输出pdf的格式都在这个里面 "markdown-pdf.displayHeaderFooter": false, "markdown-p 阅读全文

posted @ 2019-09-26 10:15 LIN_KID 阅读(366) 评论(0) 推荐(0)

2019年9月16日

强化学习第七章

摘要： 1、策略迭代、价值迭代、泛化迭代的前提条件：智能体知道环境的状态转移概率，即是基于模型的问题 2、蒙特卡洛方法采样：随机采样估计期望值，通过样本序列逼近真实的期望值。成立原因：大数定理。 3、探索和利用，探索指的是不拘于当前的表现，选择不同于当前策略的行动；利用是持续使用当前的最优策略，尽可能的获阅读全文

posted @ 2019-09-16 11:23 LIN_KID 阅读(299) 评论(0) 推荐(0)

2019年9月14日

强化学习第六章

摘要： 1、上下文管理器（结合 yield使用）那么在with下的一段代码会自动生成上下文 2、策略迭代由策略评估和策略提升两部分组成，每一次迭代都会经过这两部分，策略评估的损失函数是当前的价值和之前算的价值的平方差，策略提升通过选择价值中高得那一个动作作为下一轮策略迭代的策略。策略评估中就会把值函数收阅读全文

posted @ 2019-09-14 20:52 LIN_KID 阅读(267) 评论(0) 推荐(0)

强化学习第三四章

摘要： 1、梯度下降选择固定步长可能产生的情况：收敛、发散、重复的在两个数之间跳跃 2、np.zeros_like(x) 生成一个shape和x一样的全为0的数组 3、plt.counter画等高线图 4、tensorflow的scope 变量命名空间（1）若tf.Variable(初始值,name=' 阅读全文

posted @ 2019-09-14 13:50 LIN_KID 阅读(160) 评论(0) 推荐(0)

Gae&reward shaping

摘要： 1| reward. shaping 如果对vs有大致的认知，把势能potential-based定义为估计的最优价值函数，能加快价值函数收敛 2、gae：广义优势估计 absorb state:terminal state γ-just条件:尚未理解 GAE(Generalized Advanta 阅读全文

posted @ 2019-09-14 13:49 LIN_KID 阅读(1159) 评论(0) 推荐(0)

公告