kissat-mab
1. 奖励函数
设t表示当前这次运行期间(第t次重启),a表示选择的启发式策略(lrb或vsids),\(decisions_t\)表示在运行t这段运行期间中所做的决策数量,\(decidedVars_t\)表示在t中通过分支策略选取的变元数量(重复选同一个文字只会算一次)。那么,策略a在运行t的奖励 \(r_t(a)\) 计算公式为:$$r_t(a)={\frac {log_2(decisions_t)}{decidedVars_t}}$$
这个公式意味着,如果在搜索树中更早地遇到冲突,并且选取的变元数量更少,那么对应的启发式策略将获得更大的奖励值。因为\(decisions_t \le 2^{decidedVars_t}\) ,所以\(r_t(a)\)的值显然在区间 [0,1]内。
2. 估计每个臂奖励概率分布(上限置信算法(UCB))
\[UCB1(a)=\hat {r_t(a)} + \sqrt {\frac {4*ln(t)}{n_t(a)}}
\]
- \(n_t(a)\)表示在之前的
t次运行中选择臂a的次数。 - \(\hat {r_t(a)}\)表示臂
a在之前的t次运行中获得的奖励的经验平均值。
本文来自博客园,作者:seonwee,转载请注明原文链接:https://www.cnblogs.com/seonwee/p/18767192

浙公网安备 33010602011771号