随笔分类 - 🍇 THUDA · PhD 笔记
摘要:询问 deepseek 泊松过程、指数分布和事件到达率的含义。
阅读全文
摘要:如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
阅读全文
摘要:Proportional-Integral-Derivative(PID),比例-积分-微分控制。
阅读全文
摘要:为了帮助你更好地理解 Nested Partition 算法,我为你生成了一首诗,用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊
阅读全文
摘要:非常感谢!去写作业了🙏🏻
阅读全文
摘要:一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。
阅读全文
摘要:感觉讲的非常好,谢谢善良的博主 😊🙏🏻
阅读全文
摘要:写伪逆矩阵计算代码,是专业课作业 2333,挑了两个好实现的算法写一下。
阅读全文
摘要:sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。
阅读全文
摘要:满秩分解的计算方法,居然意外的简单。
阅读全文
摘要:1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。
阅读全文
摘要:Cholesky 分解是 LU 分解(三角分解)的特殊形式,n 阶实对称正定矩阵 A = LL^T,其中 L 为下三角;搬运外网的代码,非原创。
阅读全文
摘要:贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。
阅读全文

浙公网安备 33010602011771号