随笔分类 -  🍇 THUDA · PhD 笔记

摘要:询问 deepseek 泊松过程、指数分布和事件到达率的含义。 阅读全文
posted @ 2025-02-25 14:27 MoonOut 阅读(597) 评论(0) 推荐(0)
摘要:出分后发布笔记…… 阅读全文
posted @ 2025-02-07 04:34 MoonOut 阅读(302) 评论(0) 推荐(0)
摘要:出分后发布笔记…… 阅读全文
posted @ 2025-02-07 04:19 MoonOut 阅读(469) 评论(0) 推荐(0)
摘要:如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。 阅读全文
posted @ 2024-03-21 16:46 MoonOut 阅读(359) 评论(0) 推荐(0)
摘要:Proportional-Integral-Derivative(PID),比例-积分-微分控制。 阅读全文
posted @ 2024-02-17 10:55 MoonOut 阅读(514) 评论(0) 推荐(0)
摘要:出分后发布笔记…… 阅读全文
posted @ 2024-02-06 11:02 MoonOut 阅读(659) 评论(0) 推荐(0)
摘要:出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:47 MoonOut 阅读(105) 评论(0) 推荐(0)
摘要:出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:37 MoonOut 阅读(60) 评论(0) 推荐(0)
摘要:出分后发布笔记…… 阅读全文
posted @ 2024-02-06 10:37 MoonOut 阅读(81) 评论(0) 推荐(1)
摘要:为了帮助你更好地理解 Nested Partition 算法,我为你生成了一首诗,用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊 阅读全文
posted @ 2024-01-13 11:06 MoonOut 阅读(141) 评论(1) 推荐(0)
摘要:非常感谢!去写作业了🙏🏻 阅读全文
posted @ 2023-11-28 15:34 MoonOut 阅读(48) 评论(0) 推荐(0)
摘要:一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。 阅读全文
posted @ 2023-11-27 15:47 MoonOut 阅读(57) 评论(0) 推荐(0)
摘要:感觉讲的非常好,谢谢善良的博主 😊🙏🏻 阅读全文
posted @ 2023-11-16 16:36 MoonOut 阅读(36) 评论(0) 推荐(0)
摘要:写伪逆矩阵计算代码,是专业课作业 2333,挑了两个好实现的算法写一下。 阅读全文
posted @ 2023-11-11 12:01 MoonOut 阅读(759) 评论(0) 推荐(0)
摘要:sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。 阅读全文
posted @ 2023-11-07 10:51 MoonOut 阅读(318) 评论(1) 推荐(0)
摘要:满秩分解的计算方法,居然意外的简单。 阅读全文
posted @ 2023-11-04 17:07 MoonOut 阅读(484) 评论(0) 推荐(0)
摘要:1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。 阅读全文
posted @ 2023-11-02 10:44 MoonOut 阅读(555) 评论(3) 推荐(0)
摘要:Cholesky 分解是 LU 分解(三角分解)的特殊形式,n 阶实对称正定矩阵 A = LL^T,其中 L 为下三角;搬运外网的代码,非原创。 阅读全文
posted @ 2023-11-01 14:23 MoonOut 阅读(503) 评论(0) 推荐(0)
摘要:贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。 阅读全文
posted @ 2023-10-24 09:40 MoonOut 阅读(1108) 评论(0) 推荐(0)