Loading

摘要: 从概率图角度理解强化学习 一、变分推断(Variational Inference) 1. 概率隐变量模型(Probabilistic Latent Variable Models) 什么是隐变量模型 概率模型的含义便是输入一组数据之后,计算这组数据的概率分布,而条件变量也类似。而这些数据的分布可能 阅读全文
posted @ 2021-11-20 20:18 懒狗lg 阅读(2243) 评论(0) 推荐(0)
摘要: PPO abstract PPO通过与环境交互来采样数据和使用随机梯度上升优化"替代"目标函数之间交替使用。鉴于标准策略梯度方法对每个数据严格不能执行一次梯度更新,本文章提出了一个新的目标函数,该函数支持多个epochs的小批量更新。 Introduction 本文使用的算法在仅使用一阶优化的情况下 阅读全文
posted @ 2021-10-07 17:43 懒狗lg 阅读(525) 评论(0) 推荐(0)
摘要: GAE abstract 策略梯度算法可以直接优化累计奖励,并且可以直接用于神经网络等非线性函数逼近器。但是存在两个挑战: 需要大量的样本 很难让算法在变化的数据中获得稳定的上升。 而在本章中,使用价值函数,通过类似于的优势函数的指数加权估计值,来答复减少策略梯度估计值的偏差。通过对策略和值函数使用 阅读全文
posted @ 2021-10-07 17:38 懒狗lg 阅读(1415) 评论(0) 推荐(0)
摘要: Edge Intelligence:The Confluence of Edge Computing and Artificial Intelligence Abstract 随着人工智能和硬件架构的发展,在网络边缘产生了数十亿字节的数据,这对数据处理和结构优化提出了巨大的要求。因此将边缘计算与人工 阅读全文
posted @ 2021-09-13 15:16 懒狗lg 阅读(1411) 评论(1) 推荐(0)
摘要: Edge Computing:Vision and Challenges Abstract 由于物联网的普及,推动了边缘计算的出现。边缘计算要求在网络边缘处理数据,通过边缘计算有可能解决响应时间、电池寿命、带宽成本以及数据安全隐私等问题。在本文中,首先介绍边缘计算的定义,接着介绍几个案例研究,从云卸 阅读全文
posted @ 2021-09-11 15:33 懒狗lg 阅读(778) 评论(0) 推荐(0)
摘要: TRPO 1.算法推导 ​ 由于我们希望每次在更新策略之后,新策略$\tilde\pi$能必当前策略$\pi$更优。因此我们希望能够将$\eta(\tilde\pi)\(写为\)\eta(\pi)+\cdots$的形式,这时我们只需要考虑$(\cdots)\geq 0$,就能保证$\eta(\til 阅读全文
posted @ 2021-09-10 14:33 懒狗lg 阅读(778) 评论(0) 推荐(0)