会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
最爱丁珰
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
132
下一页
2025年8月31日
10.1 最简单的演员-评论家算法:QAC
摘要: QAC与Sarsa的区别是什么?前者先更新策略再更新值,后者反之吗? 核心区别:算法家族不同 Sarsa (属于 Value-Based 方法) 目标:直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a,平均能获得多少回报”这个问题。 策略:策略是从Q表中衍生出来的,例如
阅读全文
posted @ 2025-08-31 20:16 最爱丁珰
阅读(79)
评论(0)
推荐(0)
2025年8月30日
8.4.1 算法描述
摘要: 目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma
阅读全文
posted @ 2025-08-30 15:14 最爱丁珰
阅读(3)
评论(0)
推荐(0)
8.3.2 基于值函数的Q-learning
摘要: 式\((8.37)\)本质上是求解贝尔曼最优方程,跟前面的TD和Sarsa的目的已经不同了,所以行为策略是什么无所谓,目标策略是求解贝尔曼最优方程的产品。有空可以推导一下,上面是猜测 update 2025.9.25 这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上,
阅读全文
posted @ 2025-08-30 13:08 最爱丁珰
阅读(3)
评论(0)
推荐(0)
8.3.1 基于值函数的Sarsa
摘要: 式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话,式\((8.36)\)就是跟前面的TD算法的分析一样,可以求出来给定策略下的动作值;但是现在我们想要找到最优策略,那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新,现在使用广义策略迭代的
阅读全文
posted @ 2025-08-30 13:07 最爱丁珰
阅读(5)
评论(0)
推荐(0)
9.10.3 C 程序的保守 Mark & Sweep
摘要: 目录P608P609 P608 平衡二叉树是由所有已分配块组成的,键是块的起始地址,每个块的头部存储指向左右儿子的指针(指向另一个块的起始地址) 之所以要这么建立平衡二叉树,是因为我们想要判断一个给定的指针p是否指向某一个已分配块(我们之前说假设指针都指向块的开头,那是理想情况下,这里是实际情况,完
阅读全文
posted @ 2025-08-30 09:01 最爱丁珰
阅读(6)
评论(0)
推荐(0)
9.10.2 Mark & Sweep 垃圾收集器
摘要: 目录P607 P607 其实标记阶段就是在遍历图9-49,清楚阶段就是在遍历块找出所有的不可达的垃圾
阅读全文
posted @ 2025-08-30 08:48 最爱丁珰
阅读(6)
评论(0)
推荐(0)
9.10.1 垃圾收集器的基本知识
摘要: 这里需要对垃圾收集器做一些假设 第一点很好理解,因为垃圾收集器判断一个内存是否是垃圾的本质就是判断程序是是否还存在一个指针在引用这个内存,所以垃圾收集器当然要区分程序中哪些是指针哪些不是 第二点,如果指针指向块的内部,垃圾收集器就没有办法知道这个块的大小具体是多少(对于垃圾收集器来说,这些都是0/1
阅读全文
posted @ 2025-08-30 07:59 最爱丁珰
阅读(5)
评论(0)
推荐(0)
9.9.14 分离的空闲链表
摘要: 目录P604 P604 具体的分配的操作见下 分离的空闲链表可以同时提升吞吐率和利用率
阅读全文
posted @ 2025-08-30 07:42 最爱丁珰
阅读(5)
评论(0)
推荐(0)
2025年8月29日
10.3.2 Off-policy 策略梯度定理
摘要: 目录P220 P220 \(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了,而是估计的行为策略为\(\beta\),目标策略为\(\pi\)的平均状态值,我们关心的是在行为策略β经常访问的状态下,目标策略π的性能如何;这里直接用重要性采样去估计行为
阅读全文
posted @ 2025-08-29 20:35 最爱丁珰
阅读(16)
评论(0)
推荐(0)
9.9.7 放置已分配的块
摘要: 目录P594 P594 我们可以采用一种结合的方案:选择堆的一块区域(而不是整个堆),从头到尾搜索然后应用最佳适配 还可以加入9.9.14的技术进一步提升性能
阅读全文
posted @ 2025-08-29 11:00 最爱丁珰
阅读(4)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
132
下一页
公告