上一页 1 2 3 4 5 6 7 8 9 10 ··· 132 下一页
摘要: QAC与Sarsa的区别是什么?前者先更新策略再更新值,后者反之吗? 核心区别:算法家族不同 Sarsa (属于 Value-Based 方法) 目标:直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a,平均能获得多少回报”这个问题。 策略:策略是从Q表中衍生出来的,例如 阅读全文
posted @ 2025-08-31 20:16 最爱丁珰 阅读(79) 评论(0) 推荐(0)
摘要: 目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma 阅读全文
posted @ 2025-08-30 15:14 最爱丁珰 阅读(3) 评论(0) 推荐(0)
摘要: 式\((8.37)\)本质上是求解贝尔曼最优方程,跟前面的TD和Sarsa的目的已经不同了,所以行为策略是什么无所谓,目标策略是求解贝尔曼最优方程的产品。有空可以推导一下,上面是猜测 update 2025.9.25 这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上, 阅读全文
posted @ 2025-08-30 13:08 最爱丁珰 阅读(3) 评论(0) 推荐(0)
摘要: 式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话,式\((8.36)\)就是跟前面的TD算法的分析一样,可以求出来给定策略下的动作值;但是现在我们想要找到最优策略,那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新,现在使用广义策略迭代的 阅读全文
posted @ 2025-08-30 13:07 最爱丁珰 阅读(5) 评论(0) 推荐(0)
摘要: 目录P608P609 P608 平衡二叉树是由所有已分配块组成的,键是块的起始地址,每个块的头部存储指向左右儿子的指针(指向另一个块的起始地址) 之所以要这么建立平衡二叉树,是因为我们想要判断一个给定的指针p是否指向某一个已分配块(我们之前说假设指针都指向块的开头,那是理想情况下,这里是实际情况,完 阅读全文
posted @ 2025-08-30 09:01 最爱丁珰 阅读(6) 评论(0) 推荐(0)
摘要: 目录P607 P607 其实标记阶段就是在遍历图9-49,清楚阶段就是在遍历块找出所有的不可达的垃圾 阅读全文
posted @ 2025-08-30 08:48 最爱丁珰 阅读(6) 评论(0) 推荐(0)
摘要: 这里需要对垃圾收集器做一些假设 第一点很好理解,因为垃圾收集器判断一个内存是否是垃圾的本质就是判断程序是是否还存在一个指针在引用这个内存,所以垃圾收集器当然要区分程序中哪些是指针哪些不是 第二点,如果指针指向块的内部,垃圾收集器就没有办法知道这个块的大小具体是多少(对于垃圾收集器来说,这些都是0/1 阅读全文
posted @ 2025-08-30 07:59 最爱丁珰 阅读(5) 评论(0) 推荐(0)
摘要: 目录P604 P604 具体的分配的操作见下 分离的空闲链表可以同时提升吞吐率和利用率 阅读全文
posted @ 2025-08-30 07:42 最爱丁珰 阅读(5) 评论(0) 推荐(0)
摘要: 目录P220 P220 \(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了,而是估计的行为策略为\(\beta\),目标策略为\(\pi\)的平均状态值,我们关心的是在行为策略β经常访问的状态下,目标策略π的性能如何;这里直接用重要性采样去估计行为 阅读全文
posted @ 2025-08-29 20:35 最爱丁珰 阅读(16) 评论(0) 推荐(0)
摘要: 目录P594 P594 我们可以采用一种结合的方案:选择堆的一块区域(而不是整个堆),从头到尾搜索然后应用最佳适配 还可以加入9.9.14的技术进一步提升性能 阅读全文
posted @ 2025-08-29 11:00 最爱丁珰 阅读(4) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 132 下一页