《强化学习数学原理》学习笔记5——压缩映射定理的证明 - 指南
紧接着上一篇博客中贝尔曼最优方程的矩阵-向量形式:
v = f ( v ) (1) v = f(v) \tag{1}v=f(v)(1)
为了分析式(1),首先需要介绍一下压缩映射定理(Contraction Mapping Theorem)。
一、先搞懂基础概念
在开始证明前,得先清楚两个关键概念:不动点和压缩映射。
(一)不动点
考虑一个函数f ( x ) f(x)f(x),其中 x ∈ R d x \in \mathbb{R}^dx∈Rd,且 f : R d → R d f: \mathbb{R}^d \to \mathbb{R}^df:Rd→Rd。倘若有一个点x ∗ x^*x∗,满足 f ( x ∗ ) = x ∗ f(x^*) = x^*f(x∗)=x∗,那这个 x ∗ x^*x∗ 就被称为不动点。简单说,就是该点经过函数映射后,结果还是它自己,所以叫不动点。
(二)压缩映射
如果存在一个γ ∈ ( 0 , 1 ) \gamma \in (0, 1)γ∈(0,1),使得函数 f ff是压缩映射(也叫压缩函数),那么对于任意的x 1 , x 2 ∈ R d x_1, x_2 \in \mathbb{R}^dx1,x2∈Rd,都有 ∥ f ( x 1 ) − f ( x 2 ) ∥ ≤ γ ∥ x 1 − x 2 ∥ \|f(x_1) - f(x_2)\| \leq \gamma \|x_1 - x_2\|∥f(x1)−f(x2)∥≤γ∥x1−x2∥。这里的 ∥ ⋅ ∥ \|\cdot\|∥⋅∥函数就是表示向量或者矩阵的范数。直观理解,就f ff 把两个点 x 1 x_1x1 和 x 2 x_2x2映射后的距离,比原来的距离“压缩”了,而且压缩比例不超过γ \gammaγ(γ \gammaγ 小于1)。
二、压缩映射定理
对于形如 x = f ( x ) x = f(x)x=f(x)的方程,其中x xx 和 f ( x ) f(x)f(x)都是实向量,如果f ff是压缩映射,那么有以下性质:
- 存在性:一定存在一个不动点x ∗ x^*x∗,满足 f ( x ∗ ) = x ∗ f(x^*) = x^*f(x∗)=x∗。
- 唯一性:这个不动点x ∗ x^*x∗ 是唯一的。
- 算法性:考虑迭代过程
 x k + 1 = f ( x k ) (2) x_{k + 1} = f(x_k) \tag{2}xk+1=f(xk)(2)
 其中 k = 0 , 1 , 2 , … k = 0, 1, 2, \dotsk=0,1,2,…,对于任意初始值x 0 x_0x0(人为随意给定),当k → ∞ k \to \inftyk→∞ 时,x k → x ∗ x_k \to x^*xk→x∗指数级的。就是,而且收敛速度
三、详细证明过程
证明分四个部分,咱们一步步来~
(一)证明迭代序列{ x k = f ( x k − 1 ) } k = 1 ∞ \{x_k = f(x_{k - 1})\}_{k = 1}^{\infty}{xk=f(xk−1)}k=1∞是收敛的
要证明序列收敛,这里需要柯西序列的概念。柯西序列的定义是:若是一个序列x 1 , x 2 , ⋯ ∈ R x_1,x_2, \cdots \in \mathbb{R}x1,x2,⋯∈R满足:对于任意小的ε > 0 \varepsilon > 0ε>0,存在一个有限整数N NN,使得任意 m , n > N m, n > Nm,n>N 时,都有 ∥ x m − x n ∥ < ε \|x_m - x_n\| < \varepsilon∥xm−xn∥<ε,那么该序列被称为柯西序列。该条件的直观解释为,N NN之后的所有元素彼此足够接近。柯西序列的重要性在于,它保证了序列一定收敛到一个极限。
现在来证明 { x k = f ( x k − 1 ) } k = 1 ∞ \{x_k = f(x_{k - 1})\}_{k = 1}^{\infty}{xk=f(xk−1)}k=1∞是柯西序列:
 首先,因为 f ff是压缩映射,所以对于x k = f ( x k − 1 ) x_k = f(x_{k - 1})xk=f(xk−1) 和 x k − 1 = f ( x k − 2 ) x_{k - 1} = f(x_{k - 2})xk−1=f(xk−2),有
∥ x k + 1 − x k ∥ = ∥ f ( x k ) − f ( x k − 1 ) ∥ ≤ γ ∥ x k − x k − 1 ∥ (3) \|x_{k + 1} - x_k\| = \|f(x_k) - f(x_{k - 1})\| \leq \gamma \|x_k - x_{k - 1}\| \tag{3}∥xk+1−xk∥=∥f(xk)−f(xk−1)∥≤γ∥xk−xk−1∥(3)
 类似地,∥ x k − x k − 1 ∥ ≤ γ ∥ x k − 1 − x k − 2 ∥ \|x_k - x_{k - 1}\| \leq \gamma \|x_{k - 1} - x_{k - 2}\|∥xk−xk−1∥≤γ∥xk−1−xk−2∥,以此类推,∥ x 2 − x 1 ∥ ≤ γ ∥ x 1 − x 0 ∥ \|x_2 - x_1\| \leq \gamma \|x_1 - x_0\|∥x2−x1∥≤γ∥x1−x0∥。
所以可以递推得到:
∥ x k + 1 − x k ∥ ≤ γ ∥ x k − x k − 1 ∥ ≤ γ 2 ∥ x k − 1 − x k − 2 ∥ ⋮ ≤ γ k ∥ x 1 − x 0 ∥ (4) \begin{align*} \|x_{k + 1} - x_k\| &\leq \gamma \|x_k - x_{k - 1}\| \\ &\leq \gamma^2 \|x_{k - 1} - x_{k - 2}\| \\ &\vdots \\ &\leq \gamma^k \|x_1 - x_0\| \end{align*} \tag{4}∥xk+1−xk∥≤γ∥xk−xk−1∥≤γ2∥xk−1−xk−2∥⋮≤γk∥x1−x0∥(4)
 因为 γ < 1 \gamma < 1γ<1,所以对于任意的x 0 , x 1 x_0,x_1x0,x1,当 k → ∞ k \to \inftyk→∞ 时,∥ x k + 1 − x k ∥ \|x_{k + 1} - x_k\|∥xk+1−xk∥会指数级地收敛到0。不过,光有∥ x k + 1 − x k ∥ → 0 \|x_{k + 1} - x_k\| \to 0∥xk+1−xk∥→0还不足以证明序列{ x k } \{x_k\}{xk}收敛,所以得进一步考虑m > n m > nm>n 时的 ∥ x m − x n ∥ \|x_m - x_n\|∥xm−xn∥。
 把 ∥ x m − x n ∥ \|x_m - x_n\|∥xm−xn∥ 拆成:
∥ x m − x n ∥ = ∥ x m − x m − 1 + x m − 1 − ⋯ − x n + 1 + x n + 1 − x n ∥ (4) \|x_m - x_n\| = \|x_m - x_{m - 1} + x_{m - 1} - \cdots - x_{n + 1} + x_{n + 1} - x_n\| \tag{4}∥xm−xn∥=∥xm−xm−1+xm−1−⋯−xn+1+xn+1−xn∥(4)
根据范数的三角不等式(即∥ a + b ∥ ≤ ∥ a ∥ + ∥ b ∥ \|a + b\| \leq \|a\| + \|b\|∥a+b∥≤∥a∥+∥b∥),上式可能得到:
∥ x m − x n ∥ ≤ ∥ x m − x m − 1 ∥ + ⋯ + ∥ x n + 1 − x n ∥ (5) \|x_m - x_n\| \leq \|x_m - x_{m - 1}\| + \cdots + \|x_{n + 1} - x_n\| \tag{5}∥xm−xn∥≤∥xm−xm−1∥+⋯+∥xn+1−xn∥(5)
再代入式(4)得到的∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ \|x_{k + 1} - x_k\| \leq \gamma^k \|x_1 - x_0\|∥xk+1−xk∥≤γk∥x1−x0∥ ,就有:
∥ x m − x n ∥ ≤ γ m − 1 ∥ x 1 − x 0 ∥ + ⋯ + γ n ∥ x 1 − x 0 ∥ = γ n ( γ m − 1 − n + ⋯ + 1 ) ∥ x 1 − x 0 ∥ ≤ γ n ( 1 + γ + ⋯ + γ m − 1 − n + γ m − n + ⋯ ) ∥ x 1 − x 0 ∥ \begin{align*} \|x_m - x_n\| &\leq \gamma^{m - 1} \|x_1 - x_0\| + \cdots + \gamma^n \|x_1 - x_0\| \\ &= \gamma^n (\gamma^{m - 1 - n} + \cdots + 1) \|x_1 - x_0\| \\ &\leq \gamma^n (1 + \gamma + \cdots + \gamma^{m-1-n} + \gamma^{m-n} + \cdots) \|x_1 - x_0\| \tag{6} \end{align*}∥xm−xn∥≤γm−1∥x1−x0∥+⋯+γn∥x1−x0∥=γn(γm−1−n+⋯+1)∥x1−x0∥≤γn(1+γ+⋯+γm−1−n+γm−n+⋯)∥x1−x0∥(6)
 而等比数列 1 + γ + γ 2 + ⋯ 1 + \gamma + \gamma^2 + \cdots1+γ+γ2+⋯ 的和是 1 1 − γ \frac{1}{1 - \gamma}1−γ1(因为 γ < 1 \gamma < 1γ<1),所以:
∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ (7) \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\| \tag{7}∥xm−xn∥≤1−γγn∥x1−x0∥(7)
上式表明,对于任意的ε > 0 \varepsilon > 0ε>0,我们总能找到一个N NN,使得当 m , n > N m, n > Nm,n>N 时,∥ x m − x n ∥ < ε \|x_m - x_n\| < \varepsilon∥xm−xn∥<ε。所以该序列是柯西序列,必然收敛到一个极限点,记为x ∗ = lim  k → ∞ x k x^* = \lim_{k \to \infty} x_kx∗=limk→∞xk。
(二)证明极限x ∗ = lim  k → ∞ x k x^* = \lim_{k \to \infty} x_kx∗=limk→∞xk 是不动点
因为 ∥ f ( x k ) − x k ∥ = ∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ \|f(x_k) - x_k\| = \|x_{k + 1} - x_k\| \leq \gamma^k \|x_1 - x_0\|∥f(xk)−xk∥=∥xk+1−xk∥≤γk∥x1−x0∥,当 k → ∞ k \to \inftyk→∞ 时,∥ f ( x k ) − x k ∥ \|f(x_k) - x_k\|∥f(xk)−xk∥以指数级速度收敛到0。
 又因为函数 f ff对就是是连续的(压缩映射是连续的),于x k + 1 = f ( x k ) x_{k + 1} = f(x_k)xk+1=f(xk) 两边取极限 k → ∞ k \to \inftyk→∞,就有 lim  k → ∞ x k + 1 = lim  k → ∞ f ( x k ) \lim_{k \to \infty} x_{k + 1} = \lim_{k \to \infty} f(x_k)limk→∞xk+1=limk→∞f(xk),也就是 x ∗ = f ( x ∗ ) x^* = f(x^*)x∗=f(x∗),所以 x ∗ x^*x∗ 是不动点。
(三)证明不动点是唯一的
假设存在另一个不动点x ′ x'x′,满足 f ( x ′ ) = x ′ f(x') = x'f(x′)=x′。
 那么 ∥ x ′ − x ∗ ∥ = ∥ f ( x ′ ) − f ( x ∗ ) ∥ \|x' - x^*\| = \|f(x') - f(x^*)\|∥x′−x∗∥=∥f(x′)−f(x∗)∥,因为 f ff是压缩映射,所以∥ f ( x ′ ) − f ( x ∗ ) ∥ ≤ γ ∥ x ′ − x ∗ ∥ \|f(x') - f(x^*)\| \leq \gamma \|x' - x^*\|∥f(x′)−f(x∗)∥≤γ∥x′−x∗∥。
 也就是 ∥ x ′ − x ∗ ∥ ≤ γ ∥ x ′ − x ∗ ∥ \|x' - x^*\| \leq \gamma \|x' - x^*\|∥x′−x∗∥≤γ∥x′−x∗∥。
 因为 γ < 1 \gamma < 1γ<1,要让该不等式成立,只能是∥ x ′ − x ∗ ∥ = 0 \|x' - x^*\| = 0∥x′−x∗∥=0,所以 x ′ = x ∗ x' = x^*x′=x∗,不动点唯一。
(四)证明 x k x_kxk指数级收敛到x ∗ x^*x∗
回忆式(7)得到的∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\|∥xm−xn∥≤1−γγn∥x1−x0∥。
 因为 m mm可以任意大,当m → ∞ m \to \inftym→∞ 时,
∥ x ∗ − x n ∥ = lim  m → ∞ ∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ (8) \|x^* - x_n\| = \lim_{m \to \infty} \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\| \tag{8}∥x∗−xn∥=m→∞lim∥xm−xn∥≤1−γγn∥x1−x0∥(8)
 又因为 γ < 1 \gamma < 1γ<1,所以当 n → ∞ n \to \inftyn→∞ 时,误差 ∥ x ∗ − x n ∥ \|x^* - x_n\|∥x∗−xn∥会指数级收敛到0。
 
                     
                    
                 
                    
                 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号