随笔分类 -  🍅 人工智能

摘要:InfoNCE loss 可以表示互信息的下界:I(X;Y) ≥ log N - L_InfoNCE 。 阅读全文
posted @ 2026-01-02 20:07 MoonOut 阅读(146) 评论(0) 推荐(0)
摘要:考虑一步策略改进,把选 action 的概率 $\pi (a|s)$ 当作变量,$\sum \pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导,偏导数 = 0。 阅读全文
posted @ 2025-06-07 21:31 MoonOut 阅读(202) 评论(0) 推荐(0)
摘要:记录一下最近复现 PPO 的过程…… 阅读全文
posted @ 2024-11-21 16:29 MoonOut 阅读(2479) 评论(0) 推荐(1)
摘要:需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。 阅读全文
posted @ 2024-11-11 22:53 MoonOut 阅读(837) 评论(0) 推荐(0)
摘要:如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。 阅读全文
posted @ 2024-03-21 16:46 MoonOut 阅读(404) 评论(0) 推荐(0)
摘要:画图代码的存档。 阅读全文
posted @ 2024-02-20 11:29 MoonOut 阅读(606) 评论(0) 推荐(0)
摘要:1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。 阅读全文
posted @ 2023-11-02 10:44 MoonOut 阅读(614) 评论(3) 推荐(0)
摘要:贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。 阅读全文
posted @ 2023-10-24 09:40 MoonOut 阅读(1180) 评论(0) 推荐(0)
摘要:感谢善良的知乎博客🙏🏻 阅读全文
posted @ 2023-05-31 10:59 MoonOut 阅读(203) 评论(0) 推荐(0)
摘要:subplots 子图,scatter 散点图,plot 连点成线,color 与 fontsize。 阅读全文
posted @ 2023-05-26 10:55 MoonOut 阅读(102) 评论(0) 推荐(0)
摘要:使用 python datetime 库,实现微秒级计时。 阅读全文
posted @ 2023-05-25 21:52 MoonOut 阅读(184) 评论(0) 推荐(0)
摘要:主要就是 __init__, step, reset 三个方法,① __init__ 要记得定义 state action space,② step 返回 (obs, reward, done, info),③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。 阅读全文
posted @ 2023-03-03 11:03 MoonOut 阅读(445) 评论(0) 推荐(0)
摘要:① pandas 读 csv,② 基于 pytorch 的模型搭建、训练、测试。 阅读全文
posted @ 2023-03-02 15:49 MoonOut 阅读(108) 评论(1) 推荐(0)
摘要:在装服务器 python 环境,顺便整理一下 python 虚拟环境(venv)搭建全流程 阅读全文
posted @ 2022-12-22 11:47 MoonOut 阅读(221) 评论(1) 推荐(0)
摘要:20210913 - 20211005。cs231n,assignment 2。 阅读全文
posted @ 2021-10-05 21:10 MoonOut 阅读(365) 评论(0) 推荐(0)
摘要:20210804 - 20210808。cs231n,assignment 1。 阅读全文
posted @ 2021-08-08 11:15 MoonOut 阅读(160) 评论(0) 推荐(0)