随笔分类 - 🍅 人工智能
摘要:InfoNCE loss 可以表示互信息的下界:I(X;Y) ≥ log N - L_InfoNCE 。
阅读全文
摘要:考虑一步策略改进,把选 action 的概率 $\pi (a|s)$ 当作变量,$\sum \pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导,偏导数 = 0。
阅读全文
摘要:记录一下最近复现 PPO 的过程……
阅读全文
摘要:需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。
阅读全文
摘要:如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
阅读全文
摘要:画图代码的存档。
阅读全文
摘要:1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。
阅读全文
摘要:贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。
阅读全文
摘要:subplots 子图,scatter 散点图,plot 连点成线,color 与 fontsize。
阅读全文
摘要:使用 python datetime 库,实现微秒级计时。
阅读全文
摘要:主要就是 __init__, step, reset 三个方法,① __init__ 要记得定义 state action space,② step 返回 (obs, reward, done, info),③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。
阅读全文
摘要:① pandas 读 csv,② 基于 pytorch 的模型搭建、训练、测试。
阅读全文
摘要:在装服务器 python 环境,顺便整理一下 python 虚拟环境(venv)搭建全流程
阅读全文
摘要:20210913 - 20211005。cs231n,assignment 2。
阅读全文
摘要:20210804 - 20210808。cs231n,assignment 1。
阅读全文

浙公网安备 33010602011771号