优化问题中的最优性条件
优化问题中的最优性条件
一、基础知识:无约束优化的最优性条件
1. 费马最优性条件(Fermat's Optimality Condition)
定理1:设函数 \(f: \mathbb{E} \to (-\infty, \infty]\) 是一个适当的凸函数,那么 \(x^{*}\) 是 \(f(x)\) 在 \(\mathbb{E}\) 上的极小值点,当且仅当 \(0 \in \partial f(x^{*})\)。
关键概念:
- 适当函数(Proper Function):函数不恒为 \(+\infty\),且至少在某一点处取值有限。
- 次梯度(Subgradient):若存在向量 \(\xi\),使得对定义域内任意 \(x\),有 \(f(x) \geq f(x^{*}) + \langle \xi, x - x^{*} \rangle\),则 \(\xi\) 是 \(f\) 在 \(x^{*}\) 处的次梯度,所有次梯度的集合记为 \(\partial f(x^{*})\)。
证明:根据次梯度定义,\(x^{*}\) 是极小值点当且仅当对任意 \(x \in \text{dom}(f)\),有 \(f(x) \geq f(x^{*}) + \langle 0, x - x^{*} \rangle\),即 \(0 \in \partial f(x^{*})\)。
2. 复合优化问题的最优性条件
考虑问题:
\((P) \min_{x \in \mathbb{E}} f(x) + g(x)\)
其中 \(f: \mathbb{E} \to (-\infty, \infty]\) 是适当函数,\(g: \mathbb{E} \to (-\infty, \infty]\) 是适当凸函数,且 \(\text{dom}(g) \subseteq \text{int}(\text{dom}(f))\)。
定理2:
(a) (必要条件)若 \(x^{*} \in \text{dom}(g)\) 是 \((P)\) 的局部最优解,且 \(f\) 在 \(x^{*}\) 处可微,则 \(-\nabla f(x^{*}) \in \partial g(x^{*})\)。
(b) (凸问题的充要条件)若 \(f\) 是凸函数且在 \(x^{*} \in \text{dom}(g)\) 处可微,则 \(x^{*}\) 是 \((P)\) 的全局最优解当且仅当 \(-\nabla f(x^{*}) \in \partial g(x^{*})\)。
证明(a):
- 任取 \(y \in \text{dom}(g)\),由凸性,对 \(\lambda \in (0,1)\),点 \(x_{\lambda} = (1 - \lambda)x^{*} + \lambda y \in \text{dom}(g)\)。
- 由局部最优性,当 \(\lambda\) 足够小时,\(f(x_{\lambda}) + g(x_{\lambda}) \geq f(x^{*}) + g(x^{*})\)。
- 利用 \(g\) 的凸性,得 \(f((1 - \lambda)x^{*} + \lambda y) + (1 - \lambda)g(x^{*}) + \lambda g(y) \geq f(x^{*}) + g(x^{*})\),整理得:
\(\frac{f((1 - \lambda)x^{*} + \lambda y) - f(x^{*})}{\lambda} \geq g(x^{*}) - g(y)\) - 令 \(\lambda \to 0^{+}\),由 \(f\) 可微,左边极限为 \(\langle \nabla f(x^{*}), y - x^{*} \rangle\),故 \(g(y) \geq g(x^{*}) + \langle -\nabla f(x^{*}), y - x^{*} \rangle\),即 \(-\nabla f(x^{*}) \in \partial g(x^{*})\)。
证明(b):
- 必要性已在(a)中证明。
- 充分性:若 \(-\nabla f(x^{*}) \in \partial g(x^{*})\),则对任意 \(y \in \text{dom}(g)\),有 \(g(y) \geq g(x^{*}) + \langle -\nabla f(x^{*}), y - x^{*} \rangle\)。
- 又因 \(f\) 是凸函数,故 \(f(y) \geq f(x^{*}) + \langle \nabla f(x^{*}), y - x^{*} \rangle\)。
- 两式相加得 \(f(y) + g(y) \geq f(x^{*}) + g(x^{*})\),即 \(x^{*}\) 是全局最优解。
二、KKT条件:带约束优化问题的最优性条件
1. 辅助引理:优化问题的等价转换
引理1:考虑优化问题:
\(\min_{x} f(x)\)
s.t. \(g_{i}(x) \leq 0, i = 1, 2, \dots, m\)
若问题最小值有限且为 \(\bar{f}\),定义 \(F(x) \equiv \max\{f(x) - \bar{f}, g_{1}(x), \dots, g_{m}(x)\}\),则原问题的最优解集与 \(F(x)\) 的极小值点集相同。
证明:
- 设 \(X^{*}\) 为原问题最优解集,需证:
(i) 若 \(x \notin X^{*}\),则 \(F(x) > 0\);
(ii) 若 \(x \in X^{*}\),则 \(F(x) = 0\)。 - (i) 若 \(x\) 不可行,存在 \(i\) 使 \(g_{i}(x) > 0\),故 \(F(x) > 0\);若 \(x\) 可行但非最优,则 \(f(x) > \bar{f}\),故 \(F(x) > 0\)。
- (ii) 若 \(x \in X^{*}\),则 \(g_{i}(x) \leq 0\) 且 \(f(x) = \bar{f}\),故 \(F(x) = 0\)。
2. Fritz-John必要最优性条件
定理3(Fritz-John必要最优性条件):考虑优化问题:
\(\min_{x} f(x)\)
s.t. \(g_{i}(x) \leq 0, i = 1, 2, \dots, m\)
其中 \(f, g_{1}, \dots, g_{m}\) 均为实值凸函数。若 \(x^{*}\) 是最优解,则存在 \(\lambda_{0}, \lambda_{1}, \dots, \lambda_{m} \geq 0\)(不全为零),使得:
\(0 \in \lambda_{0} \partial f(x^{*}) + \sum_{i=1}^{m} \lambda_{i} \partial g_{i}(x^{*})\)
\(\lambda_{i} g_{i}(x^{*}) = 0, \ i = 1, 2, \dots, m\)
证明:
- 设 \(x^{*}\) 最优,最优值为 \(\bar{f} = f(x^{*})\),由引理1,\(x^{*}\) 也是 \(F(x) = \max\{g_{0}(x), g_{1}(x), \dots, g_{m}(x)\}\)(\(g_{0}(x) = f(x) - \bar{f}\))的极小值点。
- \(F(x)\) 是凸函数,由费马条件,\(0 \in \partial F(x^{*})\)。
- 次梯度最大值规则:\(\partial F(x^{*}) = \text{conv}(\bigcup_{i \in I(x^{*})} \partial g_{i}(x^{*}))\),其中 \(I(x^{*}) = \{i \in \{0,1,\dots,m\} : g_{i}(x^{*}) = 0\}\)。
- 存在 \(\lambda_{i} \geq 0\)(\(i \in I(x^{*})\)),\(\sum_{i \in I(x^{*})} \lambda_{i} = 1\),使 \(0 \in \sum_{i \in I(x^{*})} \lambda_{i} \partial g_{i}(x^{*})\)。
- 因 \(g_{0}(x^{*}) = 0\),故 \(0 \in I(x^{*})\),补充 \(\lambda_{i} = 0\)(\(i \notin I(x^{*})\)),即得Fritz-John条件,且 \(\lambda_{i}\) 不全为零。
3. Slater条件与KKT条件
定义2(Slater条件):存在 \(\overline{x} \in \mathbb{E}\),使得 \(g_{i}(\overline{x}) < 0\) 对 \(i = 1, 2, \dots, m\) 成立。
定理4(KKT条件):考虑优化问题:
\(\min_{x} f(x)\)
s.t. \(g_{i}(x) \leq 0, i = 1, 2, \dots, m\)
其中 \(f, g_{1}, \dots, g_{m}\) 均为实值凸函数。
(a) 若 \(x^{*}\) 是最优解且Slater条件满足,则存在 \(\lambda_{1}, \dots, \lambda_{m} \geq 0\),使得:
\(0 \in \partial f(x^{*}) + \sum_{i=1}^{m} \lambda_{i} \partial g_{i}(x^{*})\)
\(\lambda_{i} g_{i}(x^{*}) = 0, \ i = 1, 2, \dots, m\)
(b) 若 \(x\) 是可行解且满足上述条件,则 \(x\) 是最优解。
证明(a):
- 由Fritz-John条件,存在 \(\tilde{\lambda}_{0}, \tilde{\lambda}_{1}, \dots, \tilde{\lambda}_{m} \geq 0\)(不全为零)满足条件。
- 假设 \(\tilde{\lambda}_{0} = 0\),则 \(0 \in \sum_{i=1}^{m} \tilde{\lambda}_{i} \partial g_{i}(x^{*})\),即存在 \(\xi_{i} \in \partial g_{i}(x^{*})\),使 \(\sum_{i=1}^{m} \tilde{\lambda}_{i} \xi_{i} = 0\)。
- 取满足Slater条件的 \(\overline{x}\),对 \(g_{i}\) 应用次梯度不等式:\(g_{i}(x^{*}) + \langle \xi_{i}, \overline{x} - x^{*} \rangle \leq g_{i}(\overline{x})\)。
- 两边乘 \(\tilde{\lambda}_{i} \geq 0\) 并求和,利用 \(\tilde{\lambda}_{i} g_{i}(x^{*}) = 0\) 和 \(\sum \tilde{\lambda}_{i} \xi_{i} = 0\),得 \(\sum_{i=1}^{m} \tilde{\lambda}_{i} g_{i}(\overline{x}) \geq 0\),与 \(g_{i}(\overline{x}) < 0\) 矛盾,故 \(\tilde{\lambda}_{0} > 0\)。
- 令 \(\lambda_{i} = \tilde{\lambda}_{i} / \tilde{\lambda}_{0}\),即得KKT条件。
证明(b):
- 设 \(x^{*}\) 满足KKT条件,任取可行点 \(\hat{x}\),定义 \(h(x) = f(x) + \sum_{i=1}^{m} \lambda_{i} g_{i}(x)\)。
- 由KKT条件和次梯度求和规则,\(0 \in \partial h(x^{*})\),故 \(x^{*}\) 是 \(h(x)\) 的极小值点。
- 结合 \(\lambda_{i} g_{i}(x^{*}) = 0\),得 \(f(x^{*}) = h(x^{*}) \leq h(\hat{x}) = f(\hat{x}) + \sum_{i=1}^{m} \lambda_{i} g_{i}(\hat{x}) \leq f(\hat{x})\),故 \(x^{*}\) 是最优解。
本文来自博客园,作者:来者可追2019,转载请注明原文链接:https://www.cnblogs.com/wjma2719/p/18893759

浙公网安备 33010602011771号