上一页 1 2 3 4 5 6 7 ··· 130 下一页
摘要: 目录P82 P82 在这一页的最后那个过程,我们似乎认为任何一个整数都可以转换成浮点数而不会丢失精度。实际上不是的,因为当整数比较大的时候,需要的阶码和尾数就很大了,会超过float和double可以表示的范围(比如练习题2.49) 阅读全文
posted @ 2025-09-01 08:51 最爱丁珰 阅读(7) 评论(0) 推荐(0)
摘要: 目录P68 P68 在图2-27中,为什么无符号数的二进制相乘等于\(x\cdot y\)的二进制,而补码这三行就不一定?这是因为补码是人为规定的一种表示方法,不一定符合数的运算逻辑;而无符号数的本质实际上就是十进制数的二进制表示,无论是十进制数相乘还是二进制数相乘,最后得到的结果都是一样的;但是补 阅读全文
posted @ 2025-09-01 08:22 最爱丁珰 阅读(13) 评论(0) 推荐(0)
摘要: 目录P63 P63 推导上面那一段话说的是如果有一对位级表示一模一样的数相加,无论是按照有符号整数相加还是按照无符号整数相加,最后得到的结果的位级表示都是一样的,只不过去解释这个一样的位级表示是按照不同的方式解释的 阅读全文
posted @ 2025-08-31 22:40 最爱丁珰 阅读(5) 评论(0) 推荐(0)
摘要: QAC与Sarsa的区别是什么?前者先更新策略再更新值,后者反之吗? 核心区别:算法家族不同 Sarsa (属于 Value-Based 方法) 目标:直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a,平均能获得多少回报”这个问题。 策略:策略是从Q表中衍生出来的,例如 阅读全文
posted @ 2025-08-31 20:16 最爱丁珰 阅读(26) 评论(0) 推荐(0)
摘要: 目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma 阅读全文
posted @ 2025-08-30 15:14 最爱丁珰 阅读(3) 评论(0) 推荐(0)
摘要: 式\((8.37)\)本质上是求解贝尔曼最优方程,跟前面的TD和Sarsa的目的已经不同了,所以行为策略是什么无所谓,目标策略是求解贝尔曼最优方程的产品。有空可以推导一下,上面是猜测 update 2025.9.25 这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上, 阅读全文
posted @ 2025-08-30 13:08 最爱丁珰 阅读(3) 评论(0) 推荐(0)
摘要: 式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话,式\((8.36)\)就是跟前面的TD算法的分析一样,可以求出来给定策略下的动作值;但是现在我们想要找到最优策略,那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新,现在使用广义策略迭代的 阅读全文
posted @ 2025-08-30 13:07 最爱丁珰 阅读(4) 评论(0) 推荐(0)
摘要: 目录P608P609 P608 平衡二叉树是由所有已分配块组成的,键是块的起始地址,每个块的头部存储指向左右儿子的指针(指向另一个块的起始地址) 之所以要这么建立平衡二叉树,是因为我们想要判断一个给定的指针p是否指向某一个已分配块(我们之前说假设指针都指向块的开头,那是理想情况下,这里是实际情况,完 阅读全文
posted @ 2025-08-30 09:01 最爱丁珰 阅读(5) 评论(0) 推荐(0)
摘要: 目录P607 P607 其实标记阶段就是在遍历图9-49,清楚阶段就是在遍历块找出所有的不可达的垃圾 阅读全文
posted @ 2025-08-30 08:48 最爱丁珰 阅读(4) 评论(0) 推荐(0)
摘要: 这里需要对垃圾收集器做一些假设 第一点很好理解,因为垃圾收集器判断一个内存是否是垃圾的本质就是判断程序是是否还存在一个指针在引用这个内存,所以垃圾收集器当然要区分程序中哪些是指针哪些不是 第二点,如果指针指向块的内部,垃圾收集器就没有办法知道这个块的大小具体是多少(对于垃圾收集器来说,这些都是0/1 阅读全文
posted @ 2025-08-30 07:59 最爱丁珰 阅读(5) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 130 下一页