Proximal Algorithms--proximal gradient algorithm

4.2 近端梯度法

Proximal gradient method
无约束的优化问题，代价函数可以分成两个部分:

m i n f (x) = g (x) + h (x)

其中
1.g是凸的，可微的，并且domg=Rn,
2.f是闭的，凸的，可能不可微，proxh容易计算。

例如问题：L1 norm regularize least-squares

minimize 1 2 | | A x - b | | 22 + | | x | | 1

近端梯度算法：

x (k) = p r o x t k h (x k - 1 - t k ▽ g (x (k - 1))

其中

tk>0是步长，其是常数或者通过线性搜索确定。为了简洁，写成：

x + = p r o x t h (x - t k ▽ g (x))

由近端操作的定义得到：

x + = a r g min u (h (u) + 1 2 t | | u - x + t ▽ g (x) | | 22)

= a r g min u (h (u) + g (x) + ▽ g (x) T (u - x) + 1 2 t | | u - x | | 22)

x+最小化

h(u)加上

g(u)在

x处展开的简单的二次局部模型。

一些特例：
1.梯度方法(gradient method)：h(x)=0，即最小化g(x)

x (k) = x (k - 1) - t k ▽ g (x (k - 1))

2.梯度投影方法(gradient projection method):

h(x)=IC(x)，也即是在集合

C上最小化函数

g(x)

x (k) = P C (x (k - 1) - t k ▽ g (x (k - 1)))

3.迭代软阈值(iterative soft-thresholding)：

h(x)=||x||1，即最小化:

g(x)+||x||1

x (k) = p r o x t k h (x k - 1 - t k ▽ g (x (k - 1))

并且:

p r o x t h (u) i = ⎧ ⎩ ⎨ u i - t, 0, u i + t, u i \geq t - t \leq u i \leq t u i \geq t 这 里 应 该 修 改 为 u i \leq - t

推导：
h(x)的近端投影:

$p r o x t h (u) = a r g min x (| | x | | 1 + 1 2 λ | | x - u | | 22)$
将u看作常数，求函数f(x)=||x||1+12λ||x−u||22的最小值，考虑一维的情况，因为函数||x||1并不是处处可微的，因此函数为：
$f (x) = {x + 1 2 λ | | x - u | | 22, - x + 1 2 λ | | x - u | | 22, x \geq 0 x \leq 0$
则导数：
$f' (x) = {1 + 1 λ (x - u), - 1 + 1 λ (x - u), x > 0 x < 0$
$f' (x) = 0, 则 {x = u - λ, x = u + λ, x > 0 并且 u - λ > 0 x < 0 并且 u + λ < 0$
则数:
$a r g min x f (x) = ⎧ ⎩ ⎨ u - λ, u + λ, 0, u - λ > 0 u + λ < 0 - λ < u < λ$

解释：
情况1，当x>0时，u−λ>0和当x<0时，u+λ<0，在这种情况下，两个抛物线的最低点落在了各自的区间内。
情况2：左边的抛物线的最低点落在了右区间，即x>0的区域，右边的抛物线落在了左区间，这样的情况下，最低点是在x=0的区域。

投影梯度迭代

投影梯度迭代最小化公式：g(x)+h(x)

x (k) = p r o x t k h (x k - 1 - t k ▽ g (x (k - 1))

上式可以写成：

x (k) = x (k - 1) - t k G t k (x (k - 1))

其中

G t (x) = 1 t (x - p r o x t h (x - t ▽ g (x)))

上式的类似于常规的梯度下降法。
从次梯度和近端操作的关系：

u = p r o x h (x) \Leftrightarrow u - x \in \partial h (u)

得到：

G t (x) \in ▽ g (x) + \partial h (x - t G t (x)) (.0)

当前仅当x最小化f(x)=g(x)+h(x)时，Gt(x)=0
很容易理解，我们将Gt(x)=0带入得到上式两边，得到:

0 \in ▽ g (x) + \partial h (x)

线性搜索

line search
为了确定下面公式的步长:

x + = x - t G t (x)

我们从某个

t:=t^开始，重复

t:=βt (

0<β<1），直到：

g (x - t G t (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22

1. 每次线性搜索迭代过程，需要计算

prox。
2. 上面收敛条件不等式的推导参考下面收敛分析。
3. 许多其他类型的搜索工作

近端梯度方法的收敛性分析

假定:
1. ▽g是Lipschitz continuous，

| | ▽ g (x) - ▽ g (y) \leq L | | x - y | | 2 \forall x, y

2.最优值

f∗是有限的，并且在

x∗可达到的（无需唯一）。
结果：我们将给出

f(x(k)−f∗的收敛速度至少为

1/k。

凸函数的仿射下界：
affine lower bound from convexity:

g (y) \geq g (x) + ▽ g (x) T (y - x) \forall x, y

证明：带有拉格朗日余项的二阶泰勒展开:

$g (y) = g (x) + ▽ g (x) T (y - x) + 1 2 (y - x) T ▽ 2 g (ξ) (y - x)$
其中对于凸函数▽2g(ξ)≥0，因此证毕。

凸函数的二次上界：

g (y) \leq g (x) + ▽ g (x) T (y - x) + L 2 | | y - x | | 22 \forall x, y

证明：
g(y)=g(x)+▽g(x)Tv+(g(y)−g(x)−▽g(x)Tv)
其中

$▽ g (x) T v = \int 10 ▽ g (x) T v d t$ ，其中t是与v无关的变量。
$lim v \to 0 g ( y ) - g ( x ) v = lim v \to 0 \int 10 ▽ g (x + t v) T d t (.1)$
$g (y) - g (x) = \int 10 ▽ g (x + t v) T v d t (.2)$
由公式.2可以推出公式.1,但是公式.1推不出公式.2. 不参考文中是如何理解的。
换种方法推导上界1.，(参考：凸优化中文版 pdf 454页）
因为 $▽ g 2 (x) \leq M I$
带入到泰勒展开即可：
$g (y) \leq g (x) + ▽ g (x) T (y - x) + M 2 | | y - x | | 22 \forall x, y$
注意，参考文中也没有写错，应该采用下面的推导理解方法吧？
换种方法推导上界2.
如何函数▽g(x)是Lipschitz 连续，其中常数量使用L表示，则：
$| | ▽ g (x) - ▽ g (y) | | 2 \leq L | | x - y | | 2$
对于一维的情况：
$| ▽ g (x) - ▽ g (y) | \leq L | x - y |$ ，
则：
$| ▽ g ( x ) - ▽ g ( y ) | | x - y | \leq L$
两边取极限得到：
−▽2g(x)≤L或者▽2g(x)≤L，因为▽2g(x)≥0，所以范围为：
$0 \leq ▽ 2 g (x) \leq L$
则将其带入到泰勒展开式得到：
$g (y) \leq g (x) + ▽ g (x) T (y - x) + L 2 | | y - x | | 22 \forall x, y$

consequences of Lipschiitz assumption

我们知道
x+=x−tGt(x)，或者y=x−tGt(x)
将其带入到凸函数的二次上界不等式中:

g (x - t G t (x)) \leq g (x) + ▽ g (x) T (- t G t (x)) + L 2 | | - t G t (x) | | 22

g (x - t G t (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 L 2 | | G t (x) | | 22

那么下面的回溯线性搜索不等式，在

0≤t≤1/L条件下成立：

g (x - t G t (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 (3.2)

这很容易验证，只要在

0≤t≤1/L区间内，

t2≥t2L2,即函数

f(t)=t2−t2L2≥0，函数为开口向下的抛物线，与

t轴的交点分别为

0和

1/L。

回溯直线搜索：
给定函数f在x∈domf处的下降方向−Gt(x)，参数α∈(0,0.5),β∈(0,1)。
令t:=t^.
如果函数g(x−tGt(x))>g(x)−t▽g(x)TGt(x)+t2||Gt(x)||22 令t=βt

回溯直线搜索（或者回溯线性搜索），从t=t^开始，终止的时候满足：

t≥tmin=min{t^,β/L}

很容易理解，只要t落在0和1/L范围内，回溯搜索算法就停止，返回t,那么如果开始的取值t^∈[0,1/L]算法停止，如果t^>1/L，
假设算法迭代过程中达到t=1/L+o处，其中o是很小的正常数。那么需要在迭代一次才能落入到算法停止的范围内：

t : = β t = (β / L + β o)

当

o→0+时，

t:=βt=(β/L)+
所以此时算法终止时

t∈(β/L,1/L]

a global ineuqality

如果线性搜索不等式（3.2）满足，那么我们可以推导出下面的全局不等式，其描述的是关于f(x−tGt(x))的不等式：

f (x - t G t (x)) \leq f (z) + G t (x) T (x - z) - t 2 | | G t (x) | | 22 (3.3)

证明：
$f (x) = g (x) + h (x)$
$f (x - t G t x (x)) = g (x - t G t x (x)) + h (x - t G t x (x))$
$f (x - t G t x (x)) - h (x - t G t x (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22$
$f (x - t G t x (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 + h (x - t G t x (x))$
$f (x - t G t x (x)) \leq g (x) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 + h (x - t G t x (x))$
因为:g(z)≥g(x)+▽g(x)T(z−x)，即函数g(z)在x处进行展开,则
$g (x) \leq g (z) + ▽ g (x) T (x - z)$
函数:h(z)≥f(x−tGt(t))+∂f(x−tGt(t))T(z−x+tGt(t))
即：
$f (x - t G t (t)) \leq h (z) + \partial f (x - t G t (t)) T (x - z - t G t (t))$
以及(.0)公式，我们化简得到：
$f (x - t G t x (x)) \leq g (z) + ▽ g (x) T (x - z) - t ▽ g (x) T G t (x) + t 2 | | G t (x) | | 22 + h (z) + (G t (x) - ▽ g (x)) (x - z - t G t (x))$
化简得到：
$= g (z) + h (z) + G t (x) T (x - z) - t 2 | | G t (x) | | 22$

一次迭代过程

x + = x - t G t (x)

将

z=x带入到算法3.3，得到:

f (x +) \leq f (x) - t 2 | | G t (x) | | 22

即

f (x +) - f (x) \leq 0

这表明算法是一个下降方法。
将

z=x∗。带入到不等式(3.3)：

0 \leq f (x +) - f * \leq G t (x) T (x - x *) - t 2 | | G t (x) | | 22

= 1 2 t (| | x - x * | | 22 - | | x - x * - t G t (x) | | 22)

= 1 2 t (| | x - x * | | 22 - | | x + - x * | |)

因此：

||x−x∗||22≤||x+−x∗||,这说明经过一次迭代，到最优点集的距离缩短了。

Analysis for fixed step size

收敛性分析for固定步长
迭代步长的大小为t=1/L：
并且x=x(i−1),x+=x(i)
则：

\sum i = 1 k (f (x (i) - f *) \leq 1 2 t \sum i = 1 k (| | x (i - 1) - x * | | 22 - | | x (i) - x * | | 22)

= 1 2 t (| | x 0 - x * | | 22 - | | x (k) - x * | | 22)

\leq 1 2 t | | x 0 - x * | | 22

因为

f(x(i))是非递增的，

f (x (k)) - f * \leq 1 k \sum i = 1 k (f (x (i) - f *) \leq 1 2 k t | | x 0 - x * | | 22

因此：经过O(1/ϵ)次迭代，算法达到:f(x(k))−f∗≤ϵ.

参考文献：
1、http://people.eecs.berkeley.edu/~elghaoui/Teaching/EE227A/lecture18.pdf 近端梯度法
http://download.csdn.net/detail/xuluhui123/9584831

posted on 2016-07-21 19:22 Raby_Draby 阅读(1007) 评论(0) 收藏举报

刷新页面返回顶部