《强化学习数学原理》学习笔记5——压缩映射定理的证明 - 指南

紧接着上一篇博客中贝尔曼最优方程的矩阵-向量形式:
v = f ( v ) (1) v = f(v) \tag{1}v=f(v)(1)
为了分析式(1),首先需要介绍一下压缩映射定理(Contraction Mapping Theorem)。

一、先搞懂基础概念

在开始证明前,得先清楚两个关键概念:不动点压缩映射

(一)不动点

考虑一个函数f ( x ) f(x)f(x),其中 x ∈ R d x \in \mathbb{R}^dxRd,且 f : R d → R d f: \mathbb{R}^d \to \mathbb{R}^df:RdRd。倘若有一个点x ∗ x^*x,满足 f ( x ∗ ) = x ∗ f(x^*) = x^*f(x)=x,那这个 x ∗ x^*x 就被称为不动点。简单说,就是该点经过函数映射后,结果还是它自己,所以叫不动点。

(二)压缩映射

如果存在一个γ ∈ ( 0 , 1 ) \gamma \in (0, 1)γ(0,1),使得函数 f ff是压缩映射(也叫压缩函数),那么对于任意的x 1 , x 2 ∈ R d x_1, x_2 \in \mathbb{R}^dx1,x2Rd,都有 ∥ f ( x 1 ) − f ( x 2 ) ∥ ≤ γ ∥ x 1 − x 2 ∥ \|f(x_1) - f(x_2)\| \leq \gamma \|x_1 - x_2\|f(x1)f(x2)γx1x2。这里的 ∥ ⋅ ∥ \|\cdot\|函数就是表示向量或者矩阵的范数。直观理解,就f ff 把两个点 x 1 x_1x1x 2 x_2x2映射后的距离,比原来的距离“压缩”了,而且压缩比例不超过γ \gammaγγ \gammaγ 小于1)。
在这里插入图片描述

二、压缩映射定理

对于形如 x = f ( x ) x = f(x)x=f(x)的方程,其中x xxf ( x ) f(x)f(x)都是实向量,如果f ff是压缩映射,那么有以下性质:

  1. 存在性:一定存在一个不动点x ∗ x^*x,满足 f ( x ∗ ) = x ∗ f(x^*) = x^*f(x)=x
  2. 唯一性:这个不动点x ∗ x^*x 是唯一的。
  3. 算法性:考虑迭代过程
    x k + 1 = f ( x k ) (2) x_{k + 1} = f(x_k) \tag{2}xk+1=f(xk)(2)
    其中 k = 0 , 1 , 2 , … k = 0, 1, 2, \dotsk=0,1,2,,对于任意初始值x 0 x_0x0(人为随意给定),当k → ∞ k \to \inftyk 时,x k → x ∗ x_k \to x^*xkx指数级的。就是,而且收敛速度

三、详细证明过程

证明分四个部分,咱们一步步来~

(一)证明迭代序列{ x k = f ( x k − 1 ) } k = 1 ∞ \{x_k = f(x_{k - 1})\}_{k = 1}^{\infty}{xk=f(xk1)}k=1是收敛的

要证明序列收敛,这里需要柯西序列的概念。柯西序列的定义是:若是一个序列x 1 , x 2 , ⋯ ∈ R x_1,x_2, \cdots \in \mathbb{R}x1,x2,R满足:对于任意小的ε > 0 \varepsilon > 0ε>0,存在一个有限整数N NN,使得任意 m , n > N m, n > Nm,n>N 时,都有 ∥ x m − x n ∥ < ε \|x_m - x_n\| < \varepsilonxmxn<ε,那么该序列被称为柯西序列。该条件的直观解释为,N NN之后的所有元素彼此足够接近。柯西序列的重要性在于,它保证了序列一定收敛到一个极限。

现在来证明 { x k = f ( x k − 1 ) } k = 1 ∞ \{x_k = f(x_{k - 1})\}_{k = 1}^{\infty}{xk=f(xk1)}k=1是柯西序列:
首先,因为 f ff是压缩映射,所以对于x k = f ( x k − 1 ) x_k = f(x_{k - 1})xk=f(xk1)x k − 1 = f ( x k − 2 ) x_{k - 1} = f(x_{k - 2})xk1=f(xk2),有
∥ x k + 1 − x k ∥ = ∥ f ( x k ) − f ( x k − 1 ) ∥ ≤ γ ∥ x k − x k − 1 ∥ (3) \|x_{k + 1} - x_k\| = \|f(x_k) - f(x_{k - 1})\| \leq \gamma \|x_k - x_{k - 1}\| \tag{3}xk+1xk=f(xk)f(xk1)γxkxk1(3)
类似地,∥ x k − x k − 1 ∥ ≤ γ ∥ x k − 1 − x k − 2 ∥ \|x_k - x_{k - 1}\| \leq \gamma \|x_{k - 1} - x_{k - 2}\|xkxk1γxk1xk2,以此类推,∥ x 2 − x 1 ∥ ≤ γ ∥ x 1 − x 0 ∥ \|x_2 - x_1\| \leq \gamma \|x_1 - x_0\|x2x1γx1x0
所以可以递推得到:
∥ x k + 1 − x k ∥ ≤ γ ∥ x k − x k − 1 ∥ ≤ γ 2 ∥ x k − 1 − x k − 2 ∥ ⋮ ≤ γ k ∥ x 1 − x 0 ∥ (4) \begin{align*} \|x_{k + 1} - x_k\| &\leq \gamma \|x_k - x_{k - 1}\| \\ &\leq \gamma^2 \|x_{k - 1} - x_{k - 2}\| \\ &\vdots \\ &\leq \gamma^k \|x_1 - x_0\| \end{align*} \tag{4}xk+1xkγxkxk1γ2xk1xk2γkx1x0(4)
因为 γ < 1 \gamma < 1γ<1所以对于任意的x 0 , x 1 x_0,x_1x0,x1,当 k → ∞ k \to \inftyk 时,∥ x k + 1 − x k ∥ \|x_{k + 1} - x_k\|xk+1xk会指数级地收敛到0。不过,光有∥ x k + 1 − x k ∥ → 0 \|x_{k + 1} - x_k\| \to 0xk+1xk0还不足以证明序列{ x k } \{x_k\}{xk}收敛,所以得进一步考虑m > n m > nm>n 时的 ∥ x m − x n ∥ \|x_m - x_n\|xmxn
∥ x m − x n ∥ \|x_m - x_n\|xmxn 拆成:
∥ x m − x n ∥ = ∥ x m − x m − 1 + x m − 1 − ⋯ − x n + 1 + x n + 1 − x n ∥ (4) \|x_m - x_n\| = \|x_m - x_{m - 1} + x_{m - 1} - \cdots - x_{n + 1} + x_{n + 1} - x_n\| \tag{4}xmxn=xmxm1+xm1xn+1+xn+1xn(4)
根据范数的三角不等式(即∥ a + b ∥ ≤ ∥ a ∥ + ∥ b ∥ \|a + b\| \leq \|a\| + \|b\|a+ba+b),上式可能得到:
∥ x m − x n ∥ ≤ ∥ x m − x m − 1 ∥ + ⋯ + ∥ x n + 1 − x n ∥ (5) \|x_m - x_n\| \leq \|x_m - x_{m - 1}\| + \cdots + \|x_{n + 1} - x_n\| \tag{5}xmxnxmxm1++xn+1xn(5)
再代入式(4)得到的∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ \|x_{k + 1} - x_k\| \leq \gamma^k \|x_1 - x_0\|xk+1xkγkx1x0 ,就有:
∥ x m − x n ∥ ≤ γ m − 1 ∥ x 1 − x 0 ∥ + ⋯ + γ n ∥ x 1 − x 0 ∥ = γ n ( γ m − 1 − n + ⋯ + 1 ) ∥ x 1 − x 0 ∥ ≤ γ n ( 1 + γ + ⋯ + γ m − 1 − n + γ m − n + ⋯ ) ∥ x 1 − x 0 ∥ \begin{align*} \|x_m - x_n\| &\leq \gamma^{m - 1} \|x_1 - x_0\| + \cdots + \gamma^n \|x_1 - x_0\| \\ &= \gamma^n (\gamma^{m - 1 - n} + \cdots + 1) \|x_1 - x_0\| \\ &\leq \gamma^n (1 + \gamma + \cdots + \gamma^{m-1-n} + \gamma^{m-n} + \cdots) \|x_1 - x_0\| \tag{6} \end{align*}xmxnγm1x1x0++γnx1x0=γn(γm1n++1)x1x0γn(1+γ++γm1n+γmn+)x1x0(6)
而等比数列 1 + γ + γ 2 + ⋯ 1 + \gamma + \gamma^2 + \cdots1+γ+γ2+ 的和是 1 1 − γ \frac{1}{1 - \gamma}1γ1(因为 γ < 1 \gamma < 1γ<1),所以:
∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ (7) \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\| \tag{7}xmxn1γγnx1x0(7)
上式表明,对于任意的ε > 0 \varepsilon > 0ε>0,我们总能找到一个N NN,使得当 m , n > N m, n > Nm,n>N 时,∥ x m − x n ∥ < ε \|x_m - x_n\| < \varepsilonxmxn<ε。所以该序列是柯西序列,必然收敛到一个极限点,记为x ∗ = lim ⁡ k → ∞ x k x^* = \lim_{k \to \infty} x_kx=limkxk

(二)证明极限x ∗ = lim ⁡ k → ∞ x k x^* = \lim_{k \to \infty} x_kx=limkxk 是不动点

因为 ∥ f ( x k ) − x k ∥ = ∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ \|f(x_k) - x_k\| = \|x_{k + 1} - x_k\| \leq \gamma^k \|x_1 - x_0\|f(xk)xk=xk+1xkγkx1x0,当 k → ∞ k \to \inftyk 时,∥ f ( x k ) − x k ∥ \|f(x_k) - x_k\|f(xk)xk以指数级速度收敛到0。
又因为函数 f ff对就是是连续的(压缩映射是连续的),于x k + 1 = f ( x k ) x_{k + 1} = f(x_k)xk+1=f(xk) 两边取极限 k → ∞ k \to \inftyk,就有 lim ⁡ k → ∞ x k + 1 = lim ⁡ k → ∞ f ( x k ) \lim_{k \to \infty} x_{k + 1} = \lim_{k \to \infty} f(x_k)limkxk+1=limkf(xk),也就是 x ∗ = f ( x ∗ ) x^* = f(x^*)x=f(x),所以 x ∗ x^*x 是不动点。

(三)证明不动点是唯一的

假设存在另一个不动点x ′ x'x,满足 f ( x ′ ) = x ′ f(x') = x'f(x)=x
那么 ∥ x ′ − x ∗ ∥ = ∥ f ( x ′ ) − f ( x ∗ ) ∥ \|x' - x^*\| = \|f(x') - f(x^*)\|xx=f(x)f(x),因为 f ff是压缩映射,所以∥ f ( x ′ ) − f ( x ∗ ) ∥ ≤ γ ∥ x ′ − x ∗ ∥ \|f(x') - f(x^*)\| \leq \gamma \|x' - x^*\|f(x)f(x)γxx
也就是 ∥ x ′ − x ∗ ∥ ≤ γ ∥ x ′ − x ∗ ∥ \|x' - x^*\| \leq \gamma \|x' - x^*\|xxγxx
因为 γ < 1 \gamma < 1γ<1,要让该不等式成立,只能是∥ x ′ − x ∗ ∥ = 0 \|x' - x^*\| = 0xx=0,所以 x ′ = x ∗ x' = x^*x=x,不动点唯一。

(四)证明 x k x_kxk指数级收敛到x ∗ x^*x

回忆式(7)得到的∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\|xmxn1γγnx1x0
因为 m mm可以任意大,当m → ∞ m \to \inftym 时,
∥ x ∗ − x n ∥ = lim ⁡ m → ∞ ∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ (8) \|x^* - x_n\| = \lim_{m \to \infty} \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\| \tag{8}xxn=mlimxmxn1γγnx1x0(8)
又因为 γ < 1 \gamma < 1γ<1,所以当 n → ∞ n \to \inftyn 时,误差 ∥ x ∗ − x n ∥ \|x^* - x_n\|xxn会指数级收敛到0。

posted @ 2025-10-30 16:38  clnchanpin  阅读(1)  评论(0)    收藏  举报