kissat-mab

1. 奖励函数

设t表示当前这次运行期间（第t次重启），a表示选择的启发式策略（lrb或vsids），$decisions_t$表示在运行t这段运行期间中所做的决策数量，$decidedVars_t$表示在t中通过分支策略选取的变元数量(重复选同一个文字只会算一次)。那么，策略a在运行t的奖励 $r_t(a)$ 计算公式为：$$r_t(a)={\frac {log_2(decisions_t)}{decidedVars_t}}$$
这个公式意味着，如果在搜索树中更早地遇到冲突，并且选取的变元数量更少，那么对应的启发式策略将获得更大的奖励值。因为$decisions_t \le 2^{decidedVars_t}$ ，所以$r_t(a)$的值显然在区间 [0,1]内。

2. 估计每个臂奖励概率分布（上限置信算法(UCB)）

\[UCB1(a)=\hat {r_t(a)} + \sqrt {\frac {4*ln(t)}{n_t(a)}} \]

$n_t(a)$表示在之前的t次运行中选择臂a的次数。
$\hat {r_t(a)}$表示臂a在之前的t次运行中获得的奖励的经验平均值。

posted @ 2025-03-12 12:17 seonwee 阅读(87) 评论(0) 收藏举报

刷新页面返回顶部

seonwee

“热爱是所有的理由和答案”。

kissat-mab

1. 奖励函数

2. 估计每个臂奖励概率分布（上限置信算法(UCB)）

公告