Vertex Cover 的两倍边界

在很多图问题里,边代表一种关系:依赖、冲突、通信、覆盖、监控、约束。Vertex Cover 问的是一个很直接的问题:能不能选出尽量少的一批点,使得每条边至少有一个端点被选中?

给定无向图 \(G=(V,E)\),若点集 \(C\subseteq V\) 满足对任意边 \((u,v)\in E\),都有 \(u\in C\)\(v\in C\),那么 \(C\) 就是一个 vertex cover。

要做到最优,就要选出最少的点。无权版本的目标是最小化 \(|C|\)。带权版本 Weighted Vertex Cover Problem 进一步给每个点 \(v\) 一个非负权重 \(w_v\),目标变成最小化 \(\sum_{v\in C} w_v\)

从最小化问题开始

Vertex Cover 是一个最小化型组合优化问题。它是 NP-complete 问题。带权版本也完全一样。

对于树、二分图、很小的参数 \(k\)、有特殊结构的图,可以有更好的精确算法。真正困难的是一般图上的最优解:输入只给你一个普通无向图,不附带额外结构,要求多项式时间内总是找出最小 vertex cover 是非常困难的。到这里,通常就要接受一个现实:精确最优很难,近似解是这个问题的主战场

对最小化问题,\(\rho\) 近似的意思是算法输出 \(A\) 满足 \(\text{cost}(A)\le \rho\cdot \text{OPT}\)。Vertex Cover 最经典的结论是 \(\rho=2\)。这不是一个随便冒出来的数字,它来自一个非常简单的下界:匹配。

无权覆盖的 2 近似:先抓一批互不相碰的边

先看无权版本。一个常见算法是:

  1. 从图中找一条还没有被覆盖的边 \((u,v)\)
  2. \(u\)\(v\) 都加入答案;
  3. 删除所有已经被 \(u\)\(v\) 覆盖的边;
  4. 重复,直到所有边都被覆盖。

换一种说法,这个算法实际上是在构造一个极大匹配。每次取到的边之间不会共享端点;当算法停下时,已经无法再加入新的边。最后,把这些匹配边的两个端点全部选入 \(C\)

这里要区分“极大”和“最大”。极大匹配 maximal matching 只是说不能再往里面加边了;最大匹配 maximum matching 才是边数真正最多的匹配。这个 2 近似算法求出的只是一个极大匹配,因此实现非常轻。

为什么它一定是一个覆盖

上面的算法先求出一个图匹配,再转化成对应的覆盖方案。设算法得到的匹配为 \(M\),输出 \(C\)\(M\) 中所有边的端点集合。假设存在一条边 \((a,b)\) 没有被 \(C\) 覆盖,也就是说 \(a\)\(b\) 都没有出现在任何匹配边里。那么 \((a,b)\) 可以直接加入 \(M\),并且不会和原来的匹配边冲突。这和 \(M\) 已经极大矛盾。

所以,输出一定是一个 vertex cover。算法停机条件本身就是正确性的一部分。只要还有一条未覆盖边,就继续抓;如果停了,说明不存在未覆盖边。

为什么它最多差两倍

接下来证明近似比。匹配 \(M\) 里的边两两不共享端点。任何 vertex cover 都必须覆盖 \(M\) 中的每条边,而覆盖一条匹配边至少要选它的一个端点。由于这些边互不相交,不可能用同一个点同时覆盖两条匹配边。因此任意最优解都至少要选 \(|M|\) 个点,即 \(\text{OPT}\ge |M|\)

算法输出时,每条匹配边选两个端点,所以 \(|C|=2|M|\)。于是有 \(|C|=2|M|\le 2\text{OPT}\)

这个证明很简单,并且这个比率对该算法来说是紧的。我们可以构造一个星形图,一个中心连出很多叶子。如果算法先拿到某条边 \((c,\ell)\),它会把中心 \(c\) 和叶子 \(\ell\) 都选进去。最优解只需要选中心 \(c\),所以这一次就已经是 \(2\)\(1\)。当然,输出仍然合法,只是多选了一个叶子。

带权覆盖情形

Weighted Vertex Cover 的难点在于,“拿一条边的两个端点”可能非常亏。假设只有一条边 \((u,v)\)\(w_u=1\)\(w_v=10^6\)。如果无脑选两个端点,代价是 \(1000001\);最优解只选 \(u\),代价是 \(1\)。这显然不是 2 近似。

带权版本常用的 2 近似解法巧妙的利用 LP 对偶和 primal-dual 。先写出整数规划的转换:令 \(x_v\in{0,1}\) 表示点 \(v\) 是否被选中,每条边 \((u,v)\) 要求 \(x_u+x_v\ge 1\)。放松 \(x_v\) 的整数约束后,得到线性规划:

\[\begin{aligned} \min \quad & \sum_{v\in V} w_v x_v \ \text{s.t.}\quad & x_u+x_v\ge 1,\quad \forall (u,v)\in E \ & x_v\ge 0,\quad \forall v\in V \end{aligned} \]

它的对偶可以理解成给每条边设置一个“价格” \(y_e\)

\[\begin{aligned} \max \quad & \sum_{e\in E} y_e \ \text{s.t.}\quad & \sum_{e\ni v} y_e\le w_v,\quad \forall v\in V \ & y_e\ge 0,\quad \forall e\in E \end{aligned} \]

对偶约束的意思是:所有压到点 \(v\) 身上的边价格之和,不能超过这个点的权重 \(w_v\)。任何可行的对偶解都会给出一个下界,因为任意 vertex cover 都要为每条边至少付一次账。

定价法的直觉

primal-dual 算法可以这样写:

C = ∅
所有边价格 y_e = 0
while 还有未被覆盖的边 e=(u,v):
    同时提高 y_e,直到 u 或 v 至少有一个点的预算被用满
    把预算用满的端点加入 C
    标记所有被 C 覆盖的边
return C

更具体地说,每个点 \(v\) 有剩余预算 \(\text{slack}(v)=w_v-\sum_{e\ni v}y_e\)。当处理未覆盖边 \((u,v)\) 时,令 \(\delta=\min(\text{slack}(u),\text{slack}(v))\),把 \(y_{(u,v)}\) 增加 \(\delta\)。此时至少一个端点变成 tight,也就是预算刚好用满,把这些 tight 的端点加入 \(C\)

如果某个点权重是 \(0\),它一开始就是 tight;只要它能覆盖边,选它没有坏处。权重为负通常不在标准定义里,因为那会破坏“代价最小化”的正常含义。

证明为什么还是 2

算法始终保持对偶可行:任何点的 incident edge 价格总和都不会超过它的权重。设最终边价格为 \(y\)。对任意最优 vertex cover \(C^*\),由于 \(C^*\) 覆盖每条边,所有边价格之和不会超过被 \(C^*\) 选中顶点的预算总和,所以 \(\sum_e y_e\le \text{OPT}\)

另一方面,算法选入 \(C\) 的每个点都是 tight 的,因此

\[\sum_{v\in C}w_v=\sum_{v\in C}\sum_{e\ni v}y_e \]

右边是在数“被选中端点承担了多少边价格”。一条边最多有两个端点,所以任何 \(y_e\) 最多被数两次。因此 \(\sum_{v\in C}w_v\le 2\sum_e y_e\le 2\text{OPT}\)

这就是带权版本的 2 近似证明。它和无权匹配算法看起来不同,本质上却很接近:都在构造一个可证明的下界,然后说明自己的解最多是这个下界的两倍。无权算法的下界是匹配大小;带权算法的下界是对偶价格。

它通向哪些经典问题

Vertex Cover 不是孤立的。很多图论和组合优化问题都能从它旁边走出来。

图片

最直接的是 Independent Set。点集 \(C\) 是 vertex cover,当且仅当 \(V\setminus C\) 是 independent set。因为如果剩下的点里还有一条边,那么这条边的两个端点都没被 \(C\) 选中,\(C\) 就没有覆盖它。于是无权情形有 \(\tau(G)+\alpha(G)=|V|\),其中 \(\tau(G)\) 是最小 vertex cover 大小,\(\alpha(G)\) 是最大 independent set 大小。

再往前一步,Independent Set 又和 Clique 互为补图问题:图 \(G\) 中的 independent set,对应补图 \(\overline{G}\) 中的 clique。所以 Vertex Cover、Independent Set、Clique 这三者在判定复杂度上几乎是同一枚硬币的不同面。给定是否存在大小不超过 \(k\) 的 vertex cover,可以转成是否存在大小至少 \(|V|-k\) 的 independent set,也可以转成补图中是否存在大小至少 \(|V|-k\) 的 clique。

但这个互补关系不能随便拿来转移近似比。最小化 vertex cover 的一个 2 近似,并不会自动给最大 independent set 一个好近似。原因是补集会把乘法误差变成很难控制的差值。比如 \(|V|-\tau(G)\) 很小的时候,vertex cover 的一点点误差都可能把 independent set 的质量彻底冲掉。这也是近似算法里常见的坑:精确解之间能互相转换,不代表近似解之间也能保持比例。

Vertex Cover 也可以看成 Set Cover 的一个特例。把边集 \(E\) 看成 universe,每个顶点 \(v\) 对应一个集合 \(S_v\),里面包含所有 incident edges。选择一批顶点覆盖所有边,就是选择一批集合覆盖整个 universe。特殊之处在于,每条边恰好属于两个集合,也就是它的两个端点。一般 Set Cover 的元素可能出现在很多集合里,所以它的近似行为更差;Vertex Cover 的“频率为 2”正是 2 近似能自然出现的原因。

如果把普通边推广成超边,就得到 Hypergraph Vertex Cover,也常被看成 Hitting Set。每条超边可能包含多个顶点,目标是选点打中每条超边。若每条超边大小最多为 \(f\),类似的 primal-dual 思路会给出 \(f\) 近似。普通 Vertex Cover 就是 \(f=2\) 的情况。

Matching 则提供了另一个方向。一般图里,最大匹配大小只是最小 vertex cover 的下界,不一定相等。二分图里情况突然变好:由 Kőnig 定理,二分图的最小 vertex cover 大小等于最大匹配大小。因此二分图上的 Vertex Cover 可以多项式时间精确求解。带权二分图版本也能通过 LP 或最小割等方法解决。这是一个很好的边界:问题本身没有变,只是图类从一般图收缩到二分图,困难性就消失了。

有没有越过“两倍”的算法?

虽然 2 倍太宽了,但是暂时没有很好的办法。

在一般图上,基于“唯一博弈猜想”(UGC)成立的理论前提下,“2倍”被公认是一个无法越过的理论壁垒,有的研究放宽了目标,只追求“渐近”意义上的突破,即对顶点数 $ n $ 极大的图,能做到 \(2 - \Theta(1/\sqrt{\log n})\) 倍,虽然小于 2,但差距会随 $ n $ 增大而无限缩小,并非一个固定的常数)。

至于那些声称在一般图上实现了 1.999999 倍的算法,它属于理论计算机科学前沿的探索性成果,虽然学术上有价值,但目前尚未成为像“2倍算法”那样被广泛公认和写入教科书的标准结论。

posted @ 2026-06-27 14:29  Ofnoname  阅读(56)  评论(0)    收藏  举报