摘要:
目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma 阅读全文
posted @ 2025-08-30 15:14
最爱丁珰
阅读(3)
评论(0)
推荐(0)
摘要:
式\((8.37)\)本质上是求解贝尔曼最优方程,跟前面的TD和Sarsa的目的已经不同了,所以行为策略是什么无所谓,目标策略是求解贝尔曼最优方程的产品。有空可以推导一下,上面是猜测 update 2025.9.25 这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上, 阅读全文
posted @ 2025-08-30 13:08
最爱丁珰
阅读(3)
评论(0)
推荐(0)
摘要:
式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话,式\((8.36)\)就是跟前面的TD算法的分析一样,可以求出来给定策略下的动作值;但是现在我们想要找到最优策略,那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新,现在使用广义策略迭代的 阅读全文
posted @ 2025-08-30 13:07
最爱丁珰
阅读(4)
评论(0)
推荐(0)
摘要:
目录P608P609 P608 平衡二叉树是由所有已分配块组成的,键是块的起始地址,每个块的头部存储指向左右儿子的指针(指向另一个块的起始地址) 之所以要这么建立平衡二叉树,是因为我们想要判断一个给定的指针p是否指向某一个已分配块(我们之前说假设指针都指向块的开头,那是理想情况下,这里是实际情况,完 阅读全文
posted @ 2025-08-30 09:01
最爱丁珰
阅读(5)
评论(0)
推荐(0)
摘要:
目录P607 P607 其实标记阶段就是在遍历图9-49,清楚阶段就是在遍历块找出所有的不可达的垃圾 阅读全文
posted @ 2025-08-30 08:48
最爱丁珰
阅读(4)
评论(0)
推荐(0)
摘要:
这里需要对垃圾收集器做一些假设 第一点很好理解,因为垃圾收集器判断一个内存是否是垃圾的本质就是判断程序是是否还存在一个指针在引用这个内存,所以垃圾收集器当然要区分程序中哪些是指针哪些不是 第二点,如果指针指向块的内部,垃圾收集器就没有办法知道这个块的大小具体是多少(对于垃圾收集器来说,这些都是0/1 阅读全文
posted @ 2025-08-30 07:59
最爱丁珰
阅读(5)
评论(0)
推荐(0)
摘要:
目录P604 P604 具体的分配的操作见下 分离的空闲链表可以同时提升吞吐率和利用率 阅读全文
posted @ 2025-08-30 07:42
最爱丁珰
阅读(3)
评论(0)
推荐(0)

浙公网安备 33010602011771号