kissat-mab

1. 奖励函数

t表示当前这次运行期间(第t次重启),a表示选择的启发式策略(lrb或vsids),\(decisions_t\)表示在运行t这段运行期间中所做的决策数量,\(decidedVars_t\)表示在t中通过分支策略选取的变元数量(重复选同一个文字只会算一次)。那么,策略a在运行t的奖励 \(r_t(a)\) 计算公式为:$$r_t(a)={\frac {log_2(decisions_t)}{decidedVars_t}}$$
这个公式意味着,如果在搜索树中更早地遇到冲突,并且选取的变元数量更少,那么对应的启发式策略将获得更大的奖励值。因为\(decisions_t \le 2^{decidedVars_t}\) ,所以\(r_t(a)\)的值显然在区间 [0,1]内。

2. 估计每个臂奖励概率分布(上限置信算法(UCB))

\[UCB1(a)=\hat {r_t(a)} + \sqrt {\frac {4*ln(t)}{n_t(a)}} \]

  • \(n_t(a)\)表示在之前的t次运行中选择臂a的次数。
  • \(\hat {r_t(a)}\)表示臂a在之前的t次运行中获得的奖励的经验平均值。
posted @ 2025-03-12 12:17  seonwee  阅读(51)  评论(0)    收藏  举报