Machine Learning L1

Supervised Learning and Unsupervised Learning

Supervised learning Unsupervised learning
Input Use datasets with explicit "input-label (target)" pairs Only contains the input datasets without pre-defined labels/targets
Goal Learn a mapping from the inputs to known targets, enabling them to predict the new and unlabeled inputs. Discover hidden structures or patterns in the input data itself.

Supervised Learing

Task

Classficaiton(分类): Predicting discrete categorical labels

Regression(回归): Predicting consecutive values

Unsupervised Learning

Task

Clustering(聚类):Segmenting data into distinct groups, such as user segmentation

Dimensionality(降维):Reduce the dimensionality of the data while preserving key information as far as possible, such as through principal component analysis (PCA).

Anomaly Detection(异常检测):Detection of anomalous data points, such as financial fraud detection

Fundamental Knowledge

Basic Notions of Linear Algebra

Vector

  • 向量(Vector)。$ x \in \mathbb{R}^n $ 是一个实值的 n列向量;即,

    \[x = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}, x_i \in \mathbb{R} \forall i. \]

  • 你可以将向量 $ x \in \mathbb{R}^n $ 看作是 n线性空间 $ \mathbb{R}^n $ 中的一个点(考虑 $ n = 2 $ 和 $ n = 3 $)。


向量的加法(Addition of vectors)

两个向量的加法通过对应坐标相加来定义,即,

\[\begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix} + \begin{bmatrix} y_1 \\ \vdots \\ y_n \end{bmatrix} = \begin{bmatrix} x_1 + y_1 \\ \vdots \\ x_n + y_n \end{bmatrix}. \]


乘法(Multiplication)

标量与向量的乘法通过在每个坐标上进行乘法来定义:

\[a \begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} ax_1 \\ \vdots \\ ax_n \end{bmatrix}. \]

其中 $ a \in \mathbb{R} $。


交换律(Commutativity)

对于所有 $ x,y \in \mathbb{R}^n $,有 $ x+y=y+x $。


分配律(Distributive properties)

$ a(x + y) = ax + ay $ 和 $ (a+b)x = ax + bx $ 对于所有 $ a, b \in \mathbb{R} $ 和 $ x, y \in \mathbb{R}^n $。


向量的转置(Transpose of vector)

设 $ x \in \mathbb{R}^n $。符号 $ x^T $ 表示 $ x^T = \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix}. $


线性独立性

我们说在 $ \mathbb{R}^n $ 中的有限向量集合 $ C = {x_1, x_2, \dots, x_m} $ 是 线性相关 的,如果存在标量 $ a_1, \dots, a_m \in \mathbb{R} $,并且它们并非全为零,使得

\[\sum_{i=1}^{m} a_i x_i = 0 \]

如果集合$ C = {x_1, x_2, \dots, x_m} $线性相关,则称其为 线性独立


张成(Span)

所有\(\{x_1, x_2, \dots, x_m\}\)的线性组合的集合称为\(\{x_1, x_2, \dots, x_m\}\)的张成,即,

\[\text{span}\{x_1, x_2, \dots, x_m\} := \left\{ \sum_{i=1}^{m} a_i x_i : a \in \mathbb{R}^m \right\} \]


基(Basis)

一个 n 维度空间 $ \mathbb{R}^n $的基是 $ \mathbb{R}^n $空间内线性独立向量的集合


内积(Inner product)

给定两个向量 $ x \in \mathbb{R}^n \(,\)y \in \mathbb{R}^n$,它们的内积定义为

\[\langle x, y \rangle = x^T y = \sum_{i=1}^{n} x_i y_i \]

我们说 $ x, y \in \mathbb{R}^n $ 是 正交 (orthogonal) 的,如果 \(x^T y = 0\)


(欧几里得)Euclidean \(\ell_2\)-范数

对于向量 \(x = \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix}^T \in \mathbb{R}^n\)

\[\|x\|_2 = \sqrt{x^T x} = \sqrt{\sum_{i=1}^{n} x_i^2}, \]

该范数测量 \(x\) 的长度。为了简便,我们通常只写 \(\|x\|\) 来表示 \(\|x\|_2\)

  • 更一般地,范数 (norm) \(\|\cdot\|: \mathbb{R}^n \to \mathbb{R}\) 是一个满足以下条件的函数:

    • 对于所有 \(x \neq 0\),有 \(\|x\| > 0\),且仅当 \(x = 0\)\(\|x\| = 0\)

    • 对于 $ x \in \mathbb{R}^n $ 和 \(\alpha \in \mathbb{R}\),有 \(\|\alpha x\| = |\alpha| \|x\|\)

    • 对于所有 $ x, y \in \mathbb{R}^n $,有 \(\|x + y\| \leq \|x\| + \|y\|\)三角不等式


Hölder \(p\)-范数。

我们现在介绍在 $ \mathbb{R}^n $ 中常见的范数——Hölder \(p\)-范数,\(1 \le p \le \infty\),定义如下:

\[\|x\|_p = \left( \sum_{i=1}^n |x_i|^p \right)^{1/p} \]

对于 \(1 \le p < \infty\),以及

\[\|x\|_\infty = \max_{1 \le i \le n} |x_i|. \]

  • 特殊情况。\(p = 2\) 时,它简化为 \(\ell_2\)-范数。当 \(p = 1\) 时,它简化为 \(\ell_1\)-范数,即:

\[\|x\|_1 = \sum_{i=1}^n |x_i|. \]


柯西-施瓦茨不等式(Cauchy-Schwarz inequality)。

\[x^T y \le \|x\|_2 \|y\|_2 \quad \forall x, y \in \mathbb{R}^n. \]


Matrix

矩阵(Matrix)。我们用 \(\mathbb{R}^{m \times n}\) 表示由 \(\mathbb{R}\) 中的元素组成的 \(m \times n\) 数组的集合。我们可以将矩阵 \(A \in \mathbb{R}^{m \times n}\) 写为

\[A = \begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{bmatrix}, a_{i,j} \in \mathbb{R} \ \forall i, j. \]


矩阵的转置(Transpose of Matrix)。

给定一个 \(m \times n\) 矩阵 \(A\),其转置 \(A^T\) 定义为以下 \(n \times m\) 矩阵:

\[A^T = \begin{bmatrix} a_{11} & a_{21} & \cdots & a_{m1} \\ a_{12} & a_{22} & \cdots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \cdots & a_{mn} \end{bmatrix}. \]


对称矩阵(Symmetric matrix)。

一个 \(m \times m\) 的实矩阵 \(A\) 被称为对称的,如果 \(A = A^T\)


矩阵的特征值

计算矩阵的特征值是线性代数中的一个重要问题。以下是计算矩阵特征值的详细步骤和方法:


特征值的定义

对于一个 $n \times n $的方阵 A ,如果存在一个标量 $\lambda $ 和一个非零向量 $ \mathbf{v}$,使得:

\[A \mathbf{v} = \lambda \mathbf{v}, \]

那么 $ \lambda $ 被称为矩阵 $ A $ 的特征值,$ \mathbf{v} $ 被称为对应的特征向量。

计算特征值的步骤
  1. 构造特征方程

    • 将特征值定义改写为:

      \[(A - \lambda I) \mathbf{v} = 0, \]

      其中 $ I $ 是单位矩阵,$ \lambda $ 是标量。

    • 为了使 $ \mathbf{v} \neq 0 $ ,矩阵 $ A - \lambda I $ 必须是奇异的(即不可逆),因此:

      \[\det(A - \lambda I) = 0. \]

    • 这个方程被称为 特征方程

  2. 求解特征方程

    • $ \det(A - \lambda I) = 0 $ 是一个关于 $ \lambda $ 的多项式方程,称为 特征多项式
    • 解这个多项式方程,得到所有的 $ \lambda $ ,即为矩阵 $ A$ 的特征值。

举例

假设矩阵 \(A\) 为:

\[A = \begin{bmatrix} 4 & 2 \\ 1 & 3 \end{bmatrix}. \]

步骤 1:构造特征方程

\[A - \lambda I = \begin{bmatrix} 4 & 2 \\ 1 & 3 \end{bmatrix} - \lambda \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} 4 - \lambda & 2 \\ 1 & 3 - \lambda \end{bmatrix}. \]

计算行列式:

\[\det(A - \lambda I) = \det\begin{bmatrix} 4 - \lambda & 2 \\ 1 & 3 - \lambda \end{bmatrix} = (4 - \lambda)(3 - \lambda) - (2)(1). \]

展开:

\[\det(A - \lambda I) = (4 - \lambda)(3 - \lambda) - 2 = 12 - 4\lambda - 3\lambda + \lambda^2 - 2 = \lambda^2 - 7\lambda + 10. \]

步骤 2:求解特征方程

解特征多项式 $ \lambda^2 - 7\lambda + 10 = 0 $:

\[\lambda^2 - 7\lambda + 10 = (\lambda - 5)(\lambda - 2) = 0. \]

得到特征值:

\[\lambda_1 = 5, \quad \lambda_2 = 2. \]

特征向量的求解是线性代数中的一个重要问题。以下是详细的步骤和方法:

步骤 3:求特征向量

对于每个特征值 $ \lambda $ ,求解 $ ( A - \lambda I) \mathbf{v} = 0 $ 。

  1. 当 $ \lambda = 5 $ 时

    \[A - 5I = \begin{bmatrix} -1 & 2 \\ 1 & -2 \end{bmatrix}. \]

    解方程 $ (A - 5I) \mathbf{v} = 0$ ,即:

    \[\begin{bmatrix} -1 & 2 \\ 1 & -2 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = 0. \]

    化简得到:

    \[-v_1 + 2v_2 = 0 \quad \Rightarrow \quad v_1 = 2v_2. \]

    取 $ v_2 = 1 $,则 $ \mathbf{v}_1 = \begin{bmatrix} 2 \ 1 \end{bmatrix} $。

  2. 当 $\lambda = 2 $ 时

    \[A - 2I = \begin{bmatrix} 2 & 2 \\ 1 & 1 \end{bmatrix}. \]

    解方程 $ (A - 2I) \mathbf{v} = 0 $,即:

    \[\begin{bmatrix} 2 & 2 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = 0. \]

    化简得到:

    \[2v_1 + 2v_2 = 0 \quad \Rightarrow \quad v_1 = -v_2. \]

    取 $ v_2 = 1 $,则 $ \mathbf{v}_2 = \begin{bmatrix} -1 \ 1 \end{bmatrix} $。

结果

矩阵 ( A ) 的特征值和对应的特征向量为:

  • 特征值 $ \lambda_1 = 5 $,特征向量 $ \mathbf{v}_1 = \begin{bmatrix} 2 \ 1 \end{bmatrix} $;
  • 特征值 $ \lambda_2 = 2 $,特征向量 $ \mathbf{v}_2 = \begin{bmatrix} -1 \ 1 \end{bmatrix} $。

矩阵乘法。

矩阵 \(A \in \mathbb{R}^{m \times n}\)\(B \in \mathbb{R}^{n \times p}\) 之间的矩阵乘法定义为\(\mathbb{R}^{m \times p} \ni C = AB \text{ 其中 } c_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}.\)

矩阵与向量的乘法可以视为矩阵乘法的特例,即,当 \(A \in \mathbb{R}^{m \times n}\)\(b \in \mathbb{R}^{n}\) 时,我们有\(\mathbb{R}^{m} \ni c = Ab \text{ 其中 } c_{i} = \sum_{k=1}^{n} a_{ik}b_{k}.\)

  • 矩阵乘法的三种视角。对于 \(C = AB\) 有三种(等价的)重要解释:

    • 第一种是通过定义

    \[c_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}, \quad \forall i = 1, 2, \dots, m, \quad j = 1, 2, \dots, p. \]

    • 第二种是通过外积

    \[C = \sum_{k=1}^{n} a_k b_k^T, \]

    其中 \(a_k\)\(b_k^T\) 分别是 \(A\)\(B\) 的第 \(k\) 列和第 \(k\) 行。

    • 第三种是通过矩阵-向量乘积

    \[c_j = Ab_j, \quad \forall j = 1, 2, \dots, p. \]


秩(Rank)。

矩阵 \(A \in \mathbb{R}^{m \times n}\) 的秩,记作 \(\text{rank}(A)\),定义为其列或行的一个最大线性无关子集的元素个数。关于矩阵秩的一些事实:

  • \(\text{rank}(A) = \text{rank}(A^T)\)
  • \(\text{rank}(A+B) \leq \text{rank}(A) + \text{rank}(B)\)
  • \(\text{rank}(AB) \leq \min\{\text{rank}(A), \text{rank}(B)\}\)

以下是针对不同方法求矩阵秩的具体例子:


方法 1:通过行变换化为阶梯形矩阵

假设矩阵 $ A $:

\[A = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤:

  1. 对矩阵进行初等行变换:

    • $ R_2 \to R_2 - 2R_1 $,得到:

      \[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 1 & 1 & 1 \end{bmatrix}. \]

    • $ R_3 \to R_3 - R_1 $,得到:

      \[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 0 & -1 & -2 \end{bmatrix}. \]

  2. $ R_3 \to R_3 \div (-1) $,得到:

    \[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 0 & 1 & 2 \end{bmatrix}. \]

  3. 阶梯形矩阵中有 2 行非零行,因此矩阵的秩为:

    \[\text{rank}(A) = 2. \]


方法 2:通过列变换化为列阶梯形矩阵

假设矩阵 $ B $:

\[B = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤:

  1. 对矩阵进行初等列变换:

    • $ C_2 \to C_2 - 2C_1 $,得到:

      \[\begin{bmatrix} 1 & 0 & 3 \\ 2 & 0 & 6 \\ 1 & -1 & 1 \end{bmatrix}. \]

    • $ C_3 \to C_3 - 3C_1 $,得到:

      \[\begin{bmatrix} 1 & 0 & 0 \\ 2 & 0 & 0 \\ 1 & -1 & -2 \end{bmatrix}. \]

  2. $ C_3 \to C_3 + 2C_2 $,得到:

    \[\begin{bmatrix} 1 & 0 & 0 \\ 2 & 0 & 0 \\ 1 & -1 & 0 \end{bmatrix}. \]

  3. 列阶梯形矩阵中有 2 列非零列,因此矩阵的秩为:

    \[\text{rank}(B) = 2. \]


方法 3:通过计算最大线性无关子集

假设矩阵 ( C ):

\[C = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤:

  1. 将矩阵的列向量视为向量集合:

    \[\mathbf{v}_1 = \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix}, \quad \mathbf{v}_2 = \begin{bmatrix} 2 \\ 4 \\ 1 \end{bmatrix}, \quad \mathbf{v}_3 = \begin{bmatrix} 3 \\ 6 \\ 1 \end{bmatrix}. \]

  2. 检查线性无关性:

    • $ \mathbf{v}_2 = 2\mathbf{v}_1 $,因此 $ \mathbf{v}_2 $是线性相关的。
    • $ \mathbf{v}_3 = 3\mathbf{v}_1 $,因此 $ \mathbf{v}_3 $是线性相关的。
  3. 最大线性无关子集为 $ {\mathbf{v}_1, \mathbf{v}_3} $,因此矩阵的秩为:

    \[\text{rank}(C) = 2. \]


方法 4:通过奇异值分解(SVD)

假设矩阵 $ D $:

\[D = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤:

  1. 对矩阵 $ D $ 进行奇异值分解,得到奇异值:

    \[\sigma_1 = 7.348, \quad \sigma_2 = 0.803, \quad \sigma_3 = 0. \]

  2. 奇异值中非零值的个数为 2,因此矩阵的秩为:

    \[\text{rank}(D) = 2. \]


方法 5:通过行列式(适用于方阵)

假设矩阵 $ E $:

\[E = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix}. \]

步骤:

  1. 计算矩阵的行列式:

    \[\det(E) = 1(5 \cdot 9 - 6 \cdot 8) - 2(4 \cdot 9 - 6 \cdot 7) + 3(4 \cdot 8 - 5 \cdot 7) = 0. \]

  2. 行列式为零,说明矩阵的秩小于 3。

  3. 进一步分析矩阵的线性无关性(通过初等行变换或其他方法),发现矩阵的秩为:

    \[\text{rank}(E) = 2. \]

这些方法可以根据具体情况选择使用,最常用的是 初等行变换线性无关性分析


矩阵逆。

一个 $ n \times n$的方阵 \(A\) 被称为可逆的,如果 \(A\) 的列具有满秩。矩阵 \(A\) 的逆记作 \(A^{-1}\),我们有

  • \[AA^{-1} = A^{-1}A = I。 \]

事实:

  • \((A^{-1})^{-1} = A\)
  • \((AB)^{-1} = B^{-1}A^{-1}\),其中 \(A, B\) 是方阵且可逆。

奇异值分解 (Singular Value Decomposition, SVD)

奇异值分解是线性代数中一个重要的工具,用于将矩阵分解为多个简单矩阵的乘积。它广泛应用于数据分析、机器学习、信号处理等领域。

定义

对于任意矩阵 $ A \in \mathbb{R}^{m \times n} $,奇异值分解将其分解为以下形式:

\[A = U \Sigma V^T, \]

其中:

  • $ U \in \mathbb{R}^{m \times m} $ 是一个正交矩阵,其列向量称为 左奇异向量
  • $ \Sigma \in \mathbb{R}^{m \times n} $ 是一个对角矩阵,其对角元素称为 奇异值
  • $ V \in \mathbb{R}^{n \times n} $ 是一个正交矩阵,其列向量称为 右奇异向量

矩阵分解的具体形式
  1. 奇异值矩阵 $ \Sigma $

    • $\Sigma \(的对角元素是非负的奇异值,通常按降序排列:\) \sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r \geq 0 $,其中 $ r = \text{rank}(A) $是矩阵的秩。
    • 非对角元素为零。
  2. **正交矩阵 $ U $ **:

    • $U $ 的列向量是矩阵 $ AA^T $ 的特征向量。
    • $ U $ 满足 $ U^T U = I $,即 $ U $ 是正交矩阵。
  3. 正交矩阵 $ V $

    • $ V $ 的列向量是矩阵 $ A^T A $ 的特征向量。
    • $ V $ 满足 $ V^T V = I $,即 $ V $ 是正交矩阵。

性质
  1. 奇异值的个数

    • 奇异值的个数等于矩阵 $ A $ 的秩 $ \text{rank}(A) $。
    • 非零奇异值的个数反映了矩阵的线性无关性。
  2. 奇异值与特征值的关系

    • 奇异值是矩阵 $ A^T A $ 或 $ AA^T $ 的特征值的平方根。
  3. 矩阵的秩

    • 矩阵的秩等于非零奇异值的个数。
  4. 压缩矩阵

    • 通过保留最大的几个奇异值,可以用低秩矩阵近似原矩阵 $ A $,这在数据压缩和降维中非常有用。

计算步骤
  1. 计算矩阵 $ A^T A $ 的特征值和特征向量,得到 $ V $ 和奇异值。
  2. 计算矩阵 $ AA^T $ 的特征值和特征向量,得到 $ U $。
  3. 构造奇异值矩阵 $ \Sigma $,将奇异值填入对角线。

应用
  1. 数据降维

    • 在主成分分析 (PCA) 中,SVD用于提取数据的主要特征。
    • 通过保留最大的几个奇异值,可以降低数据维度,同时保留主要信息。
  2. 矩阵压缩

    • 用低秩矩阵近似原矩阵 $ A $ ,减少存储空间。
  3. 解决线性方程组

    • 在最小二乘法中,SVD用于求解过约束或欠约束的线性方程组。
  4. 信号处理

    • 在噪声过滤中,SVD用于分离信号和噪声。

举例

我们以一个非对称矩阵 $ A $ 为例,详细展示奇异值分解的过程。

矩阵 $ A $

假设矩阵 $ A $ 为:

\[A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix}. \]

这是一个 $ 3 \times 2 $ 的矩阵。

步骤 1:计算 $ A^T A $ 和 $ AA^T $

  1. 计算 $ A^T A $:

    \[A^T A = \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix} \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} = \begin{bmatrix} 35 & 44 \\ 44 & 56 \end{bmatrix}. \]

  2. 计算 $ AA^T $:

    \[AA^T = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix} = \begin{bmatrix} 5 & 11 & 17 \\ 11 & 25 & 39 \\ 17 & 39 & 61 \end{bmatrix}. \]


步骤 2:计算特征值和特征向量

  1. 计算 $ A^T A $ 的特征值和特征向量:

    • 特征值为 $ \lambda_1 = 91.04 $, $ \lambda_2 = 0.96 $。

    • 对应的特征向量为:

      \[v_1 = \begin{bmatrix} 0.58 \\ 0.82 \end{bmatrix}, \quad v_2 = \begin{bmatrix} -0.82 \\ 0.58 \end{bmatrix}. \]

  2. 计算 $ AA^T $ 的特征值和特征向量:

    • 特征值与 $ A^T A $ 的特征值相同:$ \lambda_1 = 91.04 $, $ \lambda_2 = 0.96 $, $ \lambda_3 = 0 $。

    • 对应的特征向量为:

      \[u_1 = \begin{bmatrix} 0.23 \\ 0.53 \\ 0.82 \end{bmatrix}, \quad u_2 = \begin{bmatrix} 0.81 \\ 0.36 \\ -0.46 \end{bmatrix}, \quad u_3 = \begin{bmatrix} -0.54 \\ 0.77 \\ -0.34 \end{bmatrix}. \]


步骤 3:构造奇异值矩阵 $ \Sigma $

奇异值是 $ \sqrt{\lambda_1}, \sqrt{\lambda_2}, \sqrt{\lambda_3} $,即:

\[\sigma_1 = \sqrt{91.04} \approx 9.53, \quad \sigma_2 = \sqrt{0.96} \approx 0.98, \quad \sigma_3 = 0. \]

构造矩阵 $ \Sigma $:

\[\Sigma = \begin{bmatrix} 9.53 & 0 \\ 0 & 0.98 \\ 0 & 0 \end{bmatrix}. \]


步骤 4:构造 $ U, \Sigma, V^T $

  1. $ U $ 是 $ AA^T $ 的特征向量:

    \[U = \begin{bmatrix} 0.23 & 0.81 & -0.54 \\ 0.53 & 0.36 & 0.77 \\ 0.82 & -0.46 & -0.34 \end{bmatrix}. \]

  2. $ V $ 是 $ A^T A $ 的特征向量:

    \[V = \begin{bmatrix} 0.58 & -0.82 \\ 0.82 & 0.58 \end{bmatrix}. \]

  3. $ \Sigma $ 是奇异值矩阵:

    \[\Sigma = \begin{bmatrix} 9.53 & 0 \\ 0 & 0.98 \\ 0 & 0 \end{bmatrix}. \]


最终结果

奇异值分解为:

\[A = U \Sigma V^T, \]

即:

\[\begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} = \begin{bmatrix} 0.23 & 0.81 & -0.54 \\ 0.53 & 0.36 & 0.77 \\ 0.82 & -0.46 & -0.34 \end{bmatrix} \begin{bmatrix} 9.53 & 0 \\ 0 & 0.98 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} 0.58 & 0.82 \\ -0.82 & 0.58 \end{bmatrix}^T. \]

验证

通过矩阵乘法验证分解结果是否等于原矩阵 $ A $。


正交矩阵(Orthogonal matrix)

一个 $ n \times n$ 的方阵 \(\mathbf{A}\) 被称为正交的或正交归一的,如果它是一个实数方阵,其列和行是正交归一向量。即,

\[\mathbf{A}^T \mathbf{A} = \mathbf{A} \mathbf{A}^T = \mathbf{I} \]

换句话说,对于正交矩阵 \(\mathbf{A}\),我们有

\[\mathbf{A}^T = \mathbf{A}^{-1}. \]


正半定(定)(Positive semi-definite)

缩写为 $ PSD(PD)$ 矩阵。一个 $ n \times n$ 的实数矩阵 \(\mathbf{A}\) 被称为 $ PSD(PD)$,如果对于所有 \(\mathbf{x} \in \mathbb{R}^n\)(对于所有 \(\mathbf{x} \in \mathbb{R}^n \setminus \{\mathbf{0}\}\)),都有 \(\mathbf{x}^T \mathbf{A} \mathbf{x} \geq 0\) (\(> 0\))。


Basic Notions of Multivariate Calculus

梯度

它是导数对多维函数的推广。假设 \(f(x) = f(x_1, x_2, ..., x_n)\) 是连续可微的。那么,我们用(一个 \(n \times 1\) 的向量)表示 \(f\) 的梯度:

\[\nabla f(x) = \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{bmatrix} \]

事实:

  • 如果 \(f(x) = c^T x\),那么 \(\nabla f(x) = c\)
  • 如果 \(f(x) = x^T M x\)\(M\) 是对称的),那么:\(\nabla f(x) = 2Mx\)

一阶泰勒展开。一阶泰勒展开得出:

\[f(x+d) = f(x) + \nabla f(x)^T d + o(||d||), \quad ||d|| \rightarrow 0. \]


Basic Notions of Probability and Statistics

期望(Expectation)

假设 \(X\) 是一个随机变量,它的期望记作

\[E[X]. \]

假设 \(X\) 取离散值 \(x_1, \dots, x_k\),对应的概率为 \(p_1, \dots, p_k\),则

\[E[X] = \sum_{i=1}^{k} p_i x_i. \]

假设 \(X\) 取连续值在 \((-\infty, +\infty)\) 之间,具有密度 \(p(x)\),则

\[E[X] = \int_{-\infty}^{+\infty} p(x) x dx. \]


方差(Variance)

假设 \(X\) 是一个随机变量,它的方差记作

\[\text{Var}(X) = E[(X - E[X])^2]. \]


随机向量(Gaussian distribution)

\(\mathbf{X} = [X_1, \dots, X_n]^T\) 是一个随机向量,如果每个坐标都是一个随机变量。


随机向量的期望(Expectation of random vector)

假设 \(\mathbf{X}\) 是一个 \(n\) 维随机向量,它的期望表示为

\[\mathbb{E}[\mathbf{X}] = [\mathbb{E}[X_1], \dots, \mathbb{E}[X_n]]^T. \]


协方差矩阵(Covariance matrix)

假设 \(\mathbf{X} = [X_1, \dots, X_n]^T\) 是一个 \(n\) 维随机向量,它的协方差矩阵是一个 $ n \times n$ 矩阵,定义为

\[\text{Var}[\mathbf{X}] = \mathbb{E}[(\mathbf{X} - \mathbb{E}[\mathbf{X}])(\mathbf{X} - \mathbb{E}[\mathbf{X}])^T]. \]


高斯分布

随机变量 \(X\) 被称为遵循 \(\mathcal{N}(\mu, \sigma^2)\)(均值为 \(\mu\),方差为 \(\sigma^2\) 的高斯分布),如果其概率密度函数(PDF)由以下公式给出:

\[p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) \]


多元高斯分布

我们说随机向量 \(X \in \mathbb{R}^d\) 遵循均值为 \(\mu\) 和协方差矩阵 $ \Sigma $(假设为正定)的高斯分布,如果其 PDF 由以下公式给出:

\[p(\mathbf{x}|\mu, \Sigma) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\mu)^T \Sigma^{-1} (\mathbf{x}-\mu)\right) \]


Basic Notions of Optimization

优化

寻找最大值或最小值。正式来说,寻找 \(f\) 在 $ \mathbb{R}^n $ 上的最小值可以写作

\[\min_{\theta \in \mathbb{R}^n} f(\theta). \]


全局最小化器(Global minimizer)

找到点 \(\theta^*\)(称为全局最小化器/全局最优解/最优解),使得 \(f\) 在 $ \mathbb{R}^n $ 上达到最小值

\[\theta^* = \underset{\theta \in \mathbb{R}^n}{\operatorname{argmin}} f(\theta). \]

显然,\(f(\theta^*) = \min_{\theta \in \mathbb{R}^n} f(\theta)\)

图片是一个开口向上的抛物线,最低点标记为 \(\theta^*\),横轴为 \(\theta\)


Supervised Learning: Hypothesis/Model

  • 我们有一个潜在的未知假设/模型 \(g \in \mathcal{H}\)

\[g: \mathcal{X} \mapsto \mathcal{Y} \]

其中 \(\mathcal{X}\) 是输入空间(所有可能输入的集合),而 \(\mathcal{Y}\) 是输出空间(标签空间)。在我们的例子中,\(g\) 是将 \(x_i\) 映射到 \(y_i\) 的目标函数。

  • 从假设/模型空间 \(\mathcal{H}\) 中基于训练数据集 \(\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}\) 学习一个模型 \(f\)。理想情况下,\(f\) 应该完全捕捉数据中的模式,即它很好地逼近目标函数 \(g\)

\[f \approx g. \]

  • 假设空间 \(\mathcal{H}\) 是学习过程中最难 预先确定 的部分之一。\(\mathcal{H}\) 的一个典型实例是所有可能的 线性 拟合数据的集合(产生 线性模型),而另一个流行的选择是 非线性模型(例如,神经网络)。

参数化:

\[f = f_\theta \in \mathcal{H} \text{ 通常通过参数 } \theta \text{ 进行参数化} \]

示例:

  • 在线性回归中,\(f_\theta(x) = \theta^T x\) 是所有可能的线性拟合,\(\theta\) 是模型的参数。一个特定的 \(\theta\) 决定了一个特定的模型。
  • 在深度学习中,\(f_\theta\) 是神经网络,\(\theta\) 分别代表权重(网络参数)。

假设空间 \(\mathcal{H}\) 的两个主要类别:

  • 线性

    • 线性回归
    • 线性分类
  • 非线性

    • 神经网络

  • 给定训练数据集 \((x_1, y_1), \dots, (x_n, y_n)\)

  • 选择假设 \(f_\theta\)

  • 选择损失函数 \(\ell: \mathbb{R} \rightarrow \mathbb{R}\)

  • 学习/优化问题

\[\widehat{\theta} = \underset{\theta \in \mathbb{R}^d}{\text{argmin}} \frac{1}{n} \sum_{i=1}^{n} \ell(f_\theta(x_i), y_i) \tag{P} \]

优化算法 \(\mathcal{A}\) 旨在解决 (P)。

在学习得到 \(\widehat{\theta}\) 后,我们得到学习模型 \(f_{\widehat{\theta}}\)。然后,可以使用学习到的 \(f_{\widehat{\theta}}\) 进行预测。

形式化:

  • 目标函数 \(g: X \rightarrow Y\) (基础信用审批模型)

  • 训练数据集:\((x_1, y_1), \dots, (x_n, y_n)\) (历史记录)

  • 假设空间 \(\mathcal{H}\) (学习范围以近似 \(g\)

  • 假设/模型:\(f_\theta\) (待确定的模型)

  • 优化算法:\(\mathcal{A}\) (从数据中学习模型)

image-20250914152150110

posted @ 2025-09-16 11:19  End_donkey  阅读(11)  评论(0)    收藏  举报