随笔档案「2025年8月29日」：10.3.2 Off-policy 策略梯度定理 ... - 最爱丁珰

2025年8月29日

摘要：目录P220 P220 \(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了，而是估计的行为策略为\(\beta\)，目标策略为\(\pi\)的平均状态值，我们关心的是在行为策略β经常访问的状态下，目标策略π的性能如何；这里直接用重要性采样去估计行为阅读全文

posted @ 2025-08-29 20:35 最爱丁珰阅读(16) 评论(0) 推荐(0)

9.9.7 放置已分配的块

摘要：目录P594 P594 我们可以采用一种结合的方案：选择堆的一块区域（而不是整个堆），从头到尾搜索然后应用最佳适配还可以加入9.9.14的技术进一步提升性能阅读全文

posted @ 2025-08-29 11:00 最爱丁珰阅读(4) 评论(0) 推荐(0)

最爱丁珰

公告