摘要:
目录P220 P220 \(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了,而是估计的行为策略为\(\beta\),目标策略为\(\pi\)的平均状态值,我们关心的是在行为策略β经常访问的状态下,目标策略π的性能如何;这里直接用重要性采样去估计行为 阅读全文
posted @ 2025-08-29 20:35
最爱丁珰
阅读(7)
评论(0)
推荐(0)
摘要:
目录P594 P594 我们可以采用一种结合的方案:选择堆的一块区域(而不是整个堆),从头到尾搜索然后应用最佳适配 还可以加入9.9.14的技术进一步提升性能 阅读全文
posted @ 2025-08-29 11:00
最爱丁珰
阅读(4)
评论(0)
推荐(0)

浙公网安备 33010602011771号