摘要:
目录P63 P63 推导上面那一段话说的是如果有一对位级表示一模一样的数相加,无论是按照有符号整数相加还是按照无符号整数相加,最后得到的结果的位级表示都是一样的,只不过去解释这个一样的位级表示是按照不同的方式解释的 阅读全文
posted @ 2025-08-31 22:40
最爱丁珰
阅读(5)
评论(0)
推荐(0)
摘要:
QAC与Sarsa的区别是什么?前者先更新策略再更新值,后者反之吗? 核心区别:算法家族不同 Sarsa (属于 Value-Based 方法) 目标:直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a,平均能获得多少回报”这个问题。 策略:策略是从Q表中衍生出来的,例如 阅读全文
posted @ 2025-08-31 20:16
最爱丁珰
阅读(26)
评论(0)
推荐(0)

浙公网安备 33010602011771号