Machine Learning L1

Supervised Learning and Unsupervised Learning

	Supervised learning	Unsupervised learning
Input	Use datasets with explicit "input-label (target)" pairs	Only contains the input datasets without pre-defined labels/targets
Goal	Learn a mapping from the inputs to known targets, enabling them to predict the new and unlabeled inputs.	Discover hidden structures or patterns in the input data itself.

Supervised Learing

Task

Classficaiton(分类): Predicting discrete categorical labels

Regression(回归): Predicting consecutive values

Unsupervised Learning

Task

Clustering(聚类):Segmenting data into distinct groups, such as user segmentation

Dimensionality(降维):Reduce the dimensionality of the data while preserving key information as far as possible, such as through principal component analysis (PCA).

Anomaly Detection(异常检测):Detection of anomalous data points, such as financial fraud detection

Fundamental Knowledge

Basic Notions of Linear Algebra

Vector

向量(Vector)。$ x \in \mathbb{R}^n $ 是一个实值的 n 维 列向量；即，

\[x = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}, x_i \in \mathbb{R} \forall i. \]
你可以将向量 $ x \in \mathbb{R}^n $ 看作是 n 维 线性空间 $ \mathbb{R}^n $ 中的一个点（考虑 $ n = 2 $ 和 $ n = 3 $）。

向量的加法(Addition of vectors)

两个向量的加法通过对应坐标相加来定义，即，

\[\begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix} + \begin{bmatrix} y_1 \\ \vdots \\ y_n \end{bmatrix} = \begin{bmatrix} x_1 + y_1 \\ \vdots \\ x_n + y_n \end{bmatrix}. \]

乘法(Multiplication)

标量与向量的乘法通过在每个坐标上进行乘法来定义：

\[a \begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix} = \begin{bmatrix} ax_1 \\ \vdots \\ ax_n \end{bmatrix}. \]

其中 $ a \in \mathbb{R} $。

交换律(Commutativity)

对于所有 $ x,y \in \mathbb{R}^n $，有 $ x+y=y+x $。

分配律(Distributive properties)

$ a(x + y) = ax + ay $ 和 $ (a+b)x = ax + bx $ 对于所有 $ a, b \in \mathbb{R} $ 和 $ x, y \in \mathbb{R}^n $。

向量的转置(Transpose of vector)

设 $ x \in \mathbb{R}^n $。符号 $ x^T $ 表示 $ x^T = \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix}. $

线性独立性

我们说在 $ \mathbb{R}^n $ 中的有限向量集合 $ C = {x_1, x_2, \dots, x_m} $ 是 线性相关 的，如果存在标量 $ a_1, \dots, a_m \in \mathbb{R} $，并且它们并非全为零，使得

\[\sum_{i=1}^{m} a_i x_i = 0 \]

如果集合$ C = {x_1, x_2, \dots, x_m} $不线性相关，则称其为 线性独立。

张成(Span)

所有$\{x_1, x_2, \dots, x_m\}$的线性组合的集合称为$\{x_1, x_2, \dots, x_m\}$的张成，即，

\[\text{span}\{x_1, x_2, \dots, x_m\} := \left\{ \sum_{i=1}^{m} a_i x_i : a \in \mathbb{R}^m \right\} \]

基(Basis)

一个 n 维度空间 $ \mathbb{R}^n $的基是 $ \mathbb{R}^n $空间内线性独立向量的集合

内积(Inner product)

给定两个向量 $ x \in \mathbb{R}^n $，$y \in \mathbb{R}^n$，它们的内积定义为

\[\langle x, y \rangle = x^T y = \sum_{i=1}^{n} x_i y_i \]

我们说 $ x, y \in \mathbb{R}^n $ 是正交 (orthogonal) 的，如果 $x^T y = 0$。

（欧几里得）Euclidean $\ell_2$-范数

对于向量 $x = \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix}^T \in \mathbb{R}^n$，

\[\|x\|_2 = \sqrt{x^T x} = \sqrt{\sum_{i=1}^{n} x_i^2}, \]

该范数测量 $x$ 的长度。为了简便，我们通常只写 $\|x\|$ 来表示 $\|x\|_2$。

更一般地，范数 (norm) $\|\cdot\|: \mathbb{R}^n \to \mathbb{R}$ 是一个满足以下条件的函数：
- 对于所有 $x \neq 0$，有 $\|x\| > 0$，且仅当 $x = 0$ 时 $\|x\| = 0$；
- 对于 $ x \in \mathbb{R}^n $ 和 $\alpha \in \mathbb{R}$，有 $\|\alpha x\| = |\alpha| \|x\|$；
- 对于所有 $ x, y \in \mathbb{R}^n $，有 $\|x + y\| \leq \|x\| + \|y\|$ （三角不等式）

Hölder $p$-范数。

我们现在介绍在 $ \mathbb{R}^n $ 中常见的范数——Hölder $p$-范数，$1 \le p \le \infty$，定义如下：

\[\|x\|_p = \left( \sum_{i=1}^n |x_i|^p \right)^{1/p} \]

对于 $1 \le p < \infty$，以及

\[\|x\|_\infty = \max_{1 \le i \le n} |x_i|. \]

特殊情况。当 $p = 2$ 时，它简化为 $\ell_2$-范数。当 $p = 1$ 时，它简化为 $\ell_1$-范数，即：

\[\|x\|_1 = \sum_{i=1}^n |x_i|. \]

柯西-施瓦茨不等式(Cauchy-Schwarz inequality)。

\[x^T y \le \|x\|_2 \|y\|_2 \quad \forall x, y \in \mathbb{R}^n. \]

Matrix

矩阵(Matrix)。我们用 $\mathbb{R}^{m \times n}$ 表示由 $\mathbb{R}$ 中的元素组成的 $m \times n$ 数组的集合。我们可以将矩阵 $A \in \mathbb{R}^{m \times n}$ 写为

\[A = \begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{bmatrix}, a_{i,j} \in \mathbb{R} \ \forall i, j. \]

矩阵的转置(Transpose of Matrix)。

给定一个 $m \times n$ 矩阵 $A$，其转置 $A^T$ 定义为以下 $n \times m$ 矩阵：

\[A^T = \begin{bmatrix} a_{11} & a_{21} & \cdots & a_{m1} \\ a_{12} & a_{22} & \cdots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \cdots & a_{mn} \end{bmatrix}. \]

对称矩阵(Symmetric matrix)。

一个 $m \times m$ 的实矩阵 $A$ 被称为对称的，如果 $A = A^T$。

矩阵的特征值

计算矩阵的特征值是线性代数中的一个重要问题。以下是计算矩阵特征值的详细步骤和方法：

特征值的定义

对于一个 $n \times n $的方阵 A ，如果存在一个标量 $\lambda $ 和一个非零向量 $ \mathbf{v}$，使得：

\[A \mathbf{v} = \lambda \mathbf{v}, \]

那么 $ \lambda $ 被称为矩阵 $ A $ 的特征值，$ \mathbf{v} $ 被称为对应的特征向量。

计算特征值的步骤

构造特征方程：
- 将特征值定义改写为：
  
  \[(A - \lambda I) \mathbf{v} = 0, \]
  其中 $ I $ 是单位矩阵，$ \lambda $ 是标量。
- 为了使 $ \mathbf{v} \neq 0 $ ，矩阵 $ A - \lambda I $ 必须是奇异的（即不可逆），因此：
  
  \[\det(A - \lambda I) = 0. \]
- 这个方程被称为 特征方程。
求解特征方程：
- $ \det(A - \lambda I) = 0 $ 是一个关于 $ \lambda $ 的多项式方程，称为 特征多项式。
- 解这个多项式方程，得到所有的 $ \lambda $ ，即为矩阵 $ A$ 的特征值。

举例

假设矩阵 $A$ 为：

\[A = \begin{bmatrix} 4 & 2 \\ 1 & 3 \end{bmatrix}. \]

步骤 1：构造特征方程

\[A - \lambda I = \begin{bmatrix} 4 & 2 \\ 1 & 3 \end{bmatrix} - \lambda \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} 4 - \lambda & 2 \\ 1 & 3 - \lambda \end{bmatrix}. \]

计算行列式：

\[\det(A - \lambda I) = \det\begin{bmatrix} 4 - \lambda & 2 \\ 1 & 3 - \lambda \end{bmatrix} = (4 - \lambda)(3 - \lambda) - (2)(1). \]

展开：

\[\det(A - \lambda I) = (4 - \lambda)(3 - \lambda) - 2 = 12 - 4\lambda - 3\lambda + \lambda^2 - 2 = \lambda^2 - 7\lambda + 10. \]

步骤 2：求解特征方程

解特征多项式 $ \lambda^2 - 7\lambda + 10 = 0 $：

\[\lambda^2 - 7\lambda + 10 = (\lambda - 5)(\lambda - 2) = 0. \]

得到特征值：

\[\lambda_1 = 5, \quad \lambda_2 = 2. \]

特征向量的求解是线性代数中的一个重要问题。以下是详细的步骤和方法：

步骤 3：求特征向量

对于每个特征值 $ \lambda $ ，求解 $ ( A - \lambda I) \mathbf{v} = 0 $ 。

当 $ \lambda = 5 $ 时：

\[A - 5I = \begin{bmatrix} -1 & 2 \\ 1 & -2 \end{bmatrix}. \]
解方程 $ (A - 5I) \mathbf{v} = 0$ ，即：

\[\begin{bmatrix} -1 & 2 \\ 1 & -2 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = 0. \]
化简得到：

\[-v_1 + 2v_2 = 0 \quad \Rightarrow \quad v_1 = 2v_2. \]
取 $ v_2 = 1 $，则 $ \mathbf{v}_1 = \begin{bmatrix} 2 \ 1 \end{bmatrix} $。
当 $\lambda = 2 $ 时：

\[A - 2I = \begin{bmatrix} 2 & 2 \\ 1 & 1 \end{bmatrix}. \]
解方程 $ (A - 2I) \mathbf{v} = 0 $，即：

\[\begin{bmatrix} 2 & 2 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = 0. \]
化简得到：

\[2v_1 + 2v_2 = 0 \quad \Rightarrow \quad v_1 = -v_2. \]
取 $ v_2 = 1 $，则 $ \mathbf{v}_2 = \begin{bmatrix} -1 \ 1 \end{bmatrix} $。

结果

矩阵 ( A ) 的特征值和对应的特征向量为：

特征值 $ \lambda_1 = 5 $，特征向量 $ \mathbf{v}_1 = \begin{bmatrix} 2 \ 1 \end{bmatrix} $；
特征值 $ \lambda_2 = 2 $，特征向量 $ \mathbf{v}_2 = \begin{bmatrix} -1 \ 1 \end{bmatrix} $。

矩阵乘法。

矩阵 $A \in \mathbb{R}^{m \times n}$ 和 $B \in \mathbb{R}^{n \times p}$ 之间的矩阵乘法定义为$\mathbb{R}^{m \times p} \ni C = AB \text{ 其中 } c_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}.$

矩阵与向量的乘法可以视为矩阵乘法的特例，即，当 $A \in \mathbb{R}^{m \times n}$ 和 $b \in \mathbb{R}^{n}$ 时，我们有$\mathbb{R}^{m} \ni c = Ab \text{ 其中 } c_{i} = \sum_{k=1}^{n} a_{ik}b_{k}.$

矩阵乘法的三种视角。对于 $C = AB$ 有三种（等价的）重要解释：
- 第一种是通过定义
\[c_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}, \quad \forall i = 1, 2, \dots, m, \quad j = 1, 2, \dots, p. \]
- 第二种是通过外积
\[C = \sum_{k=1}^{n} a_k b_k^T, \]
其中 $a_k$ 和 $b_k^T$ 分别是 $A$ 和 $B$ 的第 $k$ 列和第 $k$ 行。
- 第三种是通过矩阵-向量乘积
\[c_j = Ab_j, \quad \forall j = 1, 2, \dots, p. \]

秩(Rank)。

矩阵 $A \in \mathbb{R}^{m \times n}$ 的秩，记作 $\text{rank}(A)$，定义为其列或行的一个最大线性无关子集的元素个数。关于矩阵秩的一些事实：

$\text{rank}(A) = \text{rank}(A^T)$；
$\text{rank}(A+B) \leq \text{rank}(A) + \text{rank}(B)$；
$\text{rank}(AB) \leq \min\{\text{rank}(A), \text{rank}(B)\}$。

以下是针对不同方法求矩阵秩的具体例子：

方法 1：通过行变换化为阶梯形矩阵

假设矩阵 $ A $：

\[A = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤：

对矩阵进行初等行变换：
- $ R_2 \to R_2 - 2R_1 $，得到：
  
  \[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 1 & 1 & 1 \end{bmatrix}. \]
- $ R_3 \to R_3 - R_1 $，得到：
  
  \[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 0 & -1 & -2 \end{bmatrix}. \]
$ R_3 \to R_3 \div (-1) $，得到：

\[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 0 & 1 & 2 \end{bmatrix}. \]
阶梯形矩阵中有 2 行非零行，因此矩阵的秩为：

\[\text{rank}(A) = 2. \]

方法 2：通过列变换化为列阶梯形矩阵

假设矩阵 $ B $：

\[B = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤：

对矩阵进行初等列变换：
- $ C_2 \to C_2 - 2C_1 $，得到：
  
  \[\begin{bmatrix} 1 & 0 & 3 \\ 2 & 0 & 6 \\ 1 & -1 & 1 \end{bmatrix}. \]
- $ C_3 \to C_3 - 3C_1 $，得到：
  
  \[\begin{bmatrix} 1 & 0 & 0 \\ 2 & 0 & 0 \\ 1 & -1 & -2 \end{bmatrix}. \]
$ C_3 \to C_3 + 2C_2 $，得到：

\[\begin{bmatrix} 1 & 0 & 0 \\ 2 & 0 & 0 \\ 1 & -1 & 0 \end{bmatrix}. \]
列阶梯形矩阵中有 2 列非零列，因此矩阵的秩为：

\[\text{rank}(B) = 2. \]

方法 3：通过计算最大线性无关子集

假设矩阵 ( C )：

\[C = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤：

将矩阵的列向量视为向量集合：

\[\mathbf{v}_1 = \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix}, \quad \mathbf{v}_2 = \begin{bmatrix} 2 \\ 4 \\ 1 \end{bmatrix}, \quad \mathbf{v}_3 = \begin{bmatrix} 3 \\ 6 \\ 1 \end{bmatrix}. \]
检查线性无关性：
- $ \mathbf{v}_2 = 2\mathbf{v}_1 $，因此 $ \mathbf{v}_2 $是线性相关的。
- $ \mathbf{v}_3 = 3\mathbf{v}_1 $，因此 $ \mathbf{v}_3 $是线性相关的。
最大线性无关子集为 $ {\mathbf{v}_1, \mathbf{v}_3} $，因此矩阵的秩为：

\[\text{rank}(C) = 2. \]

方法 4：通过奇异值分解（SVD）

假设矩阵 $ D $：

\[D = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \\ 1 & 1 & 1 \end{bmatrix}. \]

步骤：

对矩阵 $ D $ 进行奇异值分解，得到奇异值：

\[\sigma_1 = 7.348, \quad \sigma_2 = 0.803, \quad \sigma_3 = 0. \]
奇异值中非零值的个数为 2，因此矩阵的秩为：

\[\text{rank}(D) = 2. \]

方法 5：通过行列式（适用于方阵）

假设矩阵 $ E $：

\[E = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix}. \]

步骤：

计算矩阵的行列式：

\[\det(E) = 1(5 \cdot 9 - 6 \cdot 8) - 2(4 \cdot 9 - 6 \cdot 7) + 3(4 \cdot 8 - 5 \cdot 7) = 0. \]
行列式为零，说明矩阵的秩小于 3。
进一步分析矩阵的线性无关性（通过初等行变换或其他方法），发现矩阵的秩为：

\[\text{rank}(E) = 2. \]

这些方法可以根据具体情况选择使用，最常用的是 初等行变换 和 线性无关性分析。

矩阵逆。

一个 $ n \times n$的方阵 $A$ 被称为可逆的，如果 $A$ 的列具有满秩。矩阵 $A$ 的逆记作 $A^{-1}$，我们有

\[AA^{-1} = A^{-1}A = I。 \]

事实：

$(A^{-1})^{-1} = A$。
$(AB)^{-1} = B^{-1}A^{-1}$，其中 $A, B$ 是方阵且可逆。

奇异值分解 (Singular Value Decomposition, SVD)

奇异值分解是线性代数中一个重要的工具，用于将矩阵分解为多个简单矩阵的乘积。它广泛应用于数据分析、机器学习、信号处理等领域。

定义

对于任意矩阵 $ A \in \mathbb{R}^{m \times n} $，奇异值分解将其分解为以下形式：

\[A = U \Sigma V^T, \]

其中：

$ U \in \mathbb{R}^{m \times m} $ 是一个正交矩阵，其列向量称为 左奇异向量；
$ \Sigma \in \mathbb{R}^{m \times n} $ 是一个对角矩阵，其对角元素称为 奇异值；
$ V \in \mathbb{R}^{n \times n} $ 是一个正交矩阵，其列向量称为 右奇异向量。

矩阵分解的具体形式

奇异值矩阵 $ \Sigma $：
- $\Sigma $的对角元素是非负的奇异值，通常按降序排列：$ \sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r \geq 0 $，其中 $ r = \text{rank}(A) $是矩阵的秩。
- 非对角元素为零。
**正交矩阵 $ U $ **：
- $U $ 的列向量是矩阵 $ AA^T $ 的特征向量。
- $ U $ 满足 $ U^T U = I $，即 $ U $ 是正交矩阵。
正交矩阵 $ V $：
- $ V $ 的列向量是矩阵 $ A^T A $ 的特征向量。
- $ V $ 满足 $ V^T V = I $，即 $ V $ 是正交矩阵。

性质

奇异值的个数：
- 奇异值的个数等于矩阵 $ A $ 的秩 $ \text{rank}(A) $。
- 非零奇异值的个数反映了矩阵的线性无关性。
奇异值与特征值的关系：
- 奇异值是矩阵 $ A^T A $ 或 $ AA^T $ 的特征值的平方根。
矩阵的秩：
- 矩阵的秩等于非零奇异值的个数。
压缩矩阵：
- 通过保留最大的几个奇异值，可以用低秩矩阵近似原矩阵 $ A $，这在数据压缩和降维中非常有用。

计算步骤

计算矩阵 $ A^T A $ 的特征值和特征向量，得到 $ V $ 和奇异值。
计算矩阵 $ AA^T $ 的特征值和特征向量，得到 $ U $。
构造奇异值矩阵 $ \Sigma $，将奇异值填入对角线。

应用

数据降维：
- 在主成分分析 (PCA) 中，SVD用于提取数据的主要特征。
- 通过保留最大的几个奇异值，可以降低数据维度，同时保留主要信息。
矩阵压缩：
- 用低秩矩阵近似原矩阵 $ A $ ，减少存储空间。
解决线性方程组：
- 在最小二乘法中，SVD用于求解过约束或欠约束的线性方程组。
信号处理：
- 在噪声过滤中，SVD用于分离信号和噪声。

举例

我们以一个非对称矩阵 $ A $ 为例，详细展示奇异值分解的过程。

矩阵 $ A $

假设矩阵 $ A $ 为：

\[A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix}. \]

这是一个 $ 3 \times 2 $ 的矩阵。

步骤 1：计算 $ A^T A $ 和 $ AA^T $

计算 $ A^T A $：

\[A^T A = \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix} \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} = \begin{bmatrix} 35 & 44 \\ 44 & 56 \end{bmatrix}. \]
计算 $ AA^T $：

\[AA^T = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix} = \begin{bmatrix} 5 & 11 & 17 \\ 11 & 25 & 39 \\ 17 & 39 & 61 \end{bmatrix}. \]

步骤 2：计算特征值和特征向量

计算 $ A^T A $ 的特征值和特征向量：
- 特征值为 $ \lambda_1 = 91.04 $, $ \lambda_2 = 0.96 $。
- 对应的特征向量为：
  
  \[v_1 = \begin{bmatrix} 0.58 \\ 0.82 \end{bmatrix}, \quad v_2 = \begin{bmatrix} -0.82 \\ 0.58 \end{bmatrix}. \]
计算 $ AA^T $ 的特征值和特征向量：
- 特征值与 $ A^T A $ 的特征值相同：$ \lambda_1 = 91.04 $, $ \lambda_2 = 0.96 $, $ \lambda_3 = 0 $。
- 对应的特征向量为：
  
  \[u_1 = \begin{bmatrix} 0.23 \\ 0.53 \\ 0.82 \end{bmatrix}, \quad u_2 = \begin{bmatrix} 0.81 \\ 0.36 \\ -0.46 \end{bmatrix}, \quad u_3 = \begin{bmatrix} -0.54 \\ 0.77 \\ -0.34 \end{bmatrix}. \]

步骤 3：构造奇异值矩阵 $ \Sigma $

奇异值是 $ \sqrt{\lambda_1}, \sqrt{\lambda_2}, \sqrt{\lambda_3} $，即：

\[\sigma_1 = \sqrt{91.04} \approx 9.53, \quad \sigma_2 = \sqrt{0.96} \approx 0.98, \quad \sigma_3 = 0. \]

构造矩阵 $ \Sigma $：

\[\Sigma = \begin{bmatrix} 9.53 & 0 \\ 0 & 0.98 \\ 0 & 0 \end{bmatrix}. \]

步骤 4：构造 $ U, \Sigma, V^T $

$ U $ 是 $ AA^T $ 的特征向量：

\[U = \begin{bmatrix} 0.23 & 0.81 & -0.54 \\ 0.53 & 0.36 & 0.77 \\ 0.82 & -0.46 & -0.34 \end{bmatrix}. \]
$ V $ 是 $ A^T A $ 的特征向量：

\[V = \begin{bmatrix} 0.58 & -0.82 \\ 0.82 & 0.58 \end{bmatrix}. \]
$ \Sigma $ 是奇异值矩阵：

\[\Sigma = \begin{bmatrix} 9.53 & 0 \\ 0 & 0.98 \\ 0 & 0 \end{bmatrix}. \]

最终结果

奇异值分解为：

\[A = U \Sigma V^T, \]

即：

\[\begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} = \begin{bmatrix} 0.23 & 0.81 & -0.54 \\ 0.53 & 0.36 & 0.77 \\ 0.82 & -0.46 & -0.34 \end{bmatrix} \begin{bmatrix} 9.53 & 0 \\ 0 & 0.98 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} 0.58 & 0.82 \\ -0.82 & 0.58 \end{bmatrix}^T. \]

验证

通过矩阵乘法验证分解结果是否等于原矩阵 $ A $。

正交矩阵(Orthogonal matrix)

一个 $ n \times n$ 的方阵 $\mathbf{A}$ 被称为正交的或正交归一的，如果它是一个实数方阵，其列和行是正交归一向量。即，

\[\mathbf{A}^T \mathbf{A} = \mathbf{A} \mathbf{A}^T = \mathbf{I} \]

换句话说，对于正交矩阵 $\mathbf{A}$，我们有

\[\mathbf{A}^T = \mathbf{A}^{-1}. \]

正半定（定）(Positive semi-definite)

缩写为 $ PSD（PD）$ 矩阵。一个 $ n \times n$ 的实数矩阵 $\mathbf{A}$ 被称为 $ PSD（PD）$，如果对于所有 $\mathbf{x} \in \mathbb{R}^n$（对于所有 $\mathbf{x} \in \mathbb{R}^n \setminus \{\mathbf{0}\}$），都有 $\mathbf{x}^T \mathbf{A} \mathbf{x} \geq 0$ ($> 0$)。

Basic Notions of Multivariate Calculus

梯度

它是导数对多维函数的推广。假设 $f(x) = f(x_1, x_2, ..., x_n)$ 是连续可微的。那么，我们用（一个 $n \times 1$ 的向量）表示 $f$ 的梯度：

\[\nabla f(x) = \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{bmatrix} \]

事实：

如果 $f(x) = c^T x$，那么 $\nabla f(x) = c$。
如果 $f(x) = x^T M x$ （$M$ 是对称的），那么：$\nabla f(x) = 2Mx$。

一阶泰勒展开。一阶泰勒展开得出：

\[f(x+d) = f(x) + \nabla f(x)^T d + o(||d||), \quad ||d|| \rightarrow 0. \]

Basic Notions of Probability and Statistics

期望(Expectation)

假设 $X$ 是一个随机变量，它的期望记作

\[E[X]. \]

假设 $X$ 取离散值 $x_1, \dots, x_k$，对应的概率为 $p_1, \dots, p_k$，则

\[E[X] = \sum_{i=1}^{k} p_i x_i. \]

假设 $X$ 取连续值在 $(-\infty, +\infty)$ 之间，具有密度 $p(x)$，则

\[E[X] = \int_{-\infty}^{+\infty} p(x) x dx. \]

方差(Variance)

假设 $X$ 是一个随机变量，它的方差记作

\[\text{Var}(X) = E[(X - E[X])^2]. \]

随机向量(Gaussian distribution)

$\mathbf{X} = [X_1, \dots, X_n]^T$ 是一个随机向量，如果每个坐标都是一个随机变量。

随机向量的期望(Expectation of random vector)

假设 $\mathbf{X}$ 是一个 $n$ 维随机向量，它的期望表示为

\[\mathbb{E}[\mathbf{X}] = [\mathbb{E}[X_1], \dots, \mathbb{E}[X_n]]^T. \]

协方差矩阵(Covariance matrix)

假设 $\mathbf{X} = [X_1, \dots, X_n]^T$ 是一个 $n$ 维随机向量，它的协方差矩阵是一个 $ n \times n$ 矩阵，定义为

\[\text{Var}[\mathbf{X}] = \mathbb{E}[(\mathbf{X} - \mathbb{E}[\mathbf{X}])(\mathbf{X} - \mathbb{E}[\mathbf{X}])^T]. \]

高斯分布

随机变量 $X$ 被称为遵循 $\mathcal{N}(\mu, \sigma^2)$（均值为 $\mu$，方差为 $\sigma^2$ 的高斯分布），如果其概率密度函数（PDF）由以下公式给出：

\[p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) \]

多元高斯分布

我们说随机向量 $X \in \mathbb{R}^d$ 遵循均值为 $\mu$ 和协方差矩阵 $ \Sigma $（假设为正定）的高斯分布，如果其 PDF 由以下公式给出：

\[p(\mathbf{x}|\mu, \Sigma) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\mu)^T \Sigma^{-1} (\mathbf{x}-\mu)\right) \]

Basic Notions of Optimization

优化

寻找最大值或最小值。正式来说，寻找 $f$ 在 $ \mathbb{R}^n $ 上的最小值可以写作

\[\min_{\theta \in \mathbb{R}^n} f(\theta). \]

全局最小化器(Global minimizer)

找到点 $\theta^*$（称为全局最小化器/全局最优解/最优解），使得 $f$ 在 $ \mathbb{R}^n $ 上达到最小值

\[\theta^* = \underset{\theta \in \mathbb{R}^n}{\operatorname{argmin}} f(\theta). \]

显然，$f(\theta^*) = \min_{\theta \in \mathbb{R}^n} f(\theta)$。

图片是一个开口向上的抛物线，最低点标记为 $\theta^*$，横轴为 $\theta$。

Supervised Learning: Hypothesis/Model

我们有一个潜在的未知假设/模型 $g \in \mathcal{H}$

\[g: \mathcal{X} \mapsto \mathcal{Y} \]

其中 $\mathcal{X}$ 是输入空间（所有可能输入的集合），而 $\mathcal{Y}$ 是输出空间（标签空间）。在我们的例子中，$g$ 是将 $x_i$ 映射到 $y_i$ 的目标函数。

从假设/模型空间 $\mathcal{H}$ 中基于训练数据集 $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}$ 学习一个模型 $f$。理想情况下，$f$ 应该完全捕捉数据中的模式，即它很好地逼近目标函数 $g$

\[f \approx g. \]

假设空间 $\mathcal{H}$ 是学习过程中最难 预先确定 的部分之一。$\mathcal{H}$ 的一个典型实例是所有可能的线性拟合数据的集合（产生 线性模型），而另一个流行的选择是 非线性模型（例如，神经网络）。

参数化：

\[f = f_\theta \in \mathcal{H} \text{ 通常通过参数 } \theta \text{ 进行参数化} \]

示例：

在线性回归中，$f_\theta(x) = \theta^T x$ 是所有可能的线性拟合，$\theta$ 是模型的参数。一个特定的 $\theta$ 决定了一个特定的模型。
在深度学习中，$f_\theta$ 是神经网络，$\theta$ 分别代表权重（网络参数）。

假设空间 $\mathcal{H}$ 的两个主要类别：

线性
- 线性回归
- 线性分类
非线性
- 神经网络
给定训练数据集 $(x_1, y_1), \dots, (x_n, y_n)$。
选择假设 $f_\theta$。
选择损失函数 $\ell: \mathbb{R} \rightarrow \mathbb{R}$。
学习/优化问题

\[\widehat{\theta} = \underset{\theta \in \mathbb{R}^d}{\text{argmin}} \frac{1}{n} \sum_{i=1}^{n} \ell(f_\theta(x_i), y_i) \tag{P} \]

优化算法 $\mathcal{A}$ 旨在解决 (P)。

在学习得到 $\widehat{\theta}$ 后，我们得到学习模型 $f_{\widehat{\theta}}$。然后，可以使用学习到的 $f_{\widehat{\theta}}$ 进行预测。

形式化：

目标函数 $g: X \rightarrow Y$ （基础信用审批模型）
训练数据集：$(x_1, y_1), \dots, (x_n, y_n)$ （历史记录）
假设空间 $\mathcal{H}$ （学习范围以近似 $g$）
假设/模型：$f_\theta$ （待确定的模型）
优化算法：$\mathcal{A}$ （从数据中学习模型）

posted @ 2025-09-16 11:19 End_donkey 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部

End_donkey

Machine Learning L1

Supervised Learning and Unsupervised Learning

Supervised Learing

Task

Unsupervised Learning

Task

Fundamental Knowledge

Basic Notions of Linear Algebra

Vector

向量的加法(Addition of vectors)

乘法(Multiplication)

交换律(Commutativity)

分配律(Distributive properties)

向量的转置(Transpose of vector)

线性独立性

张成(Span)

基(Basis)

内积(Inner product)

（欧几里得）Euclidean \(\ell_2\)-范数

Hölder \(p\)-范数。

柯西-施瓦茨不等式(Cauchy-Schwarz inequality)。

Matrix

矩阵的转置(Transpose of Matrix)。

对称矩阵(Symmetric matrix)。

矩阵的特征值

特征值的定义

计算特征值的步骤

举例

矩阵乘法。

秩(Rank)。

方法 1：通过行变换化为阶梯形矩阵

方法 2：通过列变换化为列阶梯形矩阵

方法 3：通过计算最大线性无关子集

方法 4：通过奇异值分解（SVD）

方法 5：通过行列式（适用于方阵）

矩阵逆。

奇异值分解 (Singular Value Decomposition, SVD)

定义

矩阵分解的具体形式

性质

计算步骤

应用

举例

正交矩阵(Orthogonal matrix)

正半定（定）(Positive semi-definite)

Basic Notions of Multivariate Calculus

梯度

Basic Notions of Probability and Statistics

期望(Expectation)

方差(Variance)

随机向量(Gaussian distribution)

随机向量的期望(Expectation of random vector)

协方差矩阵(Covariance matrix)

高斯分布

多元高斯分布

Basic Notions of Optimization

优化

全局最小化器(Global minimizer)

Supervised Learning: Hypothesis/Model

公告