Machine Learning L1
Supervised Learning and Unsupervised Learning
| Supervised learning | Unsupervised learning | |
|---|---|---|
| Input | Use datasets with explicit "input-label (target)" pairs | Only contains the input datasets without pre-defined labels/targets |
| Goal | Learn a mapping from the inputs to known targets, enabling them to predict the new and unlabeled inputs. | Discover hidden structures or patterns in the input data itself. |
Supervised Learing

Task
Classficaiton(分类): Predicting discrete categorical labels
Regression(回归): Predicting consecutive values
Unsupervised Learning

Task
Clustering(聚类):Segmenting data into distinct groups, such as user segmentation
Dimensionality(降维):Reduce the dimensionality of the data while preserving key information as far as possible, such as through principal component analysis (PCA).
Anomaly Detection(异常检测):Detection of anomalous data points, such as financial fraud detection
Fundamental Knowledge
Basic Notions of Linear Algebra
Vector
-
向量(Vector)。$ x \in \mathbb{R}^n $ 是一个实值的 n 维 列向量;即,
\[x = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}, x_i \in \mathbb{R} \forall i. \] -
你可以将向量 $ x \in \mathbb{R}^n $ 看作是 n 维 线性空间 $ \mathbb{R}^n $ 中的一个点(考虑 $ n = 2 $ 和 $ n = 3 $)。
向量的加法(Addition of vectors)
两个向量的加法通过对应坐标相加来定义,即,
乘法(Multiplication)
标量与向量的乘法通过在每个坐标上进行乘法来定义:
其中 $ a \in \mathbb{R} $。
交换律(Commutativity)
对于所有 $ x,y \in \mathbb{R}^n $,有 $ x+y=y+x $。
分配律(Distributive properties)
$ a(x + y) = ax + ay $ 和 $ (a+b)x = ax + bx $ 对于所有 $ a, b \in \mathbb{R} $ 和 $ x, y \in \mathbb{R}^n $。
向量的转置(Transpose of vector)
设 $ x \in \mathbb{R}^n $。符号 $ x^T $ 表示 $ x^T = \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix}. $
线性独立性
我们说在 $ \mathbb{R}^n $ 中的有限向量集合 $ C = {x_1, x_2, \dots, x_m} $ 是 线性相关 的,如果存在标量 $ a_1, \dots, a_m \in \mathbb{R} $,并且它们并非全为零,使得
如果集合$ C = {x_1, x_2, \dots, x_m} $不线性相关,则称其为 线性独立。
张成(Span)
所有\(\{x_1, x_2, \dots, x_m\}\)的线性组合的集合称为\(\{x_1, x_2, \dots, x_m\}\)的张成,即,
基(Basis)
一个 n 维度空间 $ \mathbb{R}^n $的基是 $ \mathbb{R}^n $空间内线性独立向量的集合
内积(Inner product)
给定两个向量 $ x \in \mathbb{R}^n \(,\)y \in \mathbb{R}^n$,它们的内积定义为
我们说 $ x, y \in \mathbb{R}^n $ 是 正交 (orthogonal) 的,如果 \(x^T y = 0\)。
(欧几里得)Euclidean \(\ell_2\)-范数
对于向量 \(x = \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix}^T \in \mathbb{R}^n\),
该范数测量 \(x\) 的长度。为了简便,我们通常只写 \(\|x\|\) 来表示 \(\|x\|_2\)。
-
更一般地,范数 (norm) \(\|\cdot\|: \mathbb{R}^n \to \mathbb{R}\) 是一个满足以下条件的函数:
-
对于所有 \(x \neq 0\),有 \(\|x\| > 0\),且仅当 \(x = 0\) 时 \(\|x\| = 0\);
-
对于 $ x \in \mathbb{R}^n $ 和 \(\alpha \in \mathbb{R}\),有 \(\|\alpha x\| = |\alpha| \|x\|\);
-
对于所有 $ x, y \in \mathbb{R}^n $,有 \(\|x + y\| \leq \|x\| + \|y\|\) (三角不等式)
-
Hölder \(p\)-范数。
我们现在介绍在 $ \mathbb{R}^n $ 中常见的范数——Hölder \(p\)-范数,\(1 \le p \le \infty\),定义如下:
对于 \(1 \le p < \infty\),以及
- 特殊情况。当 \(p = 2\) 时,它简化为 \(\ell_2\)-范数。当 \(p = 1\) 时,它简化为 \(\ell_1\)-范数,即:
柯西-施瓦茨不等式(Cauchy-Schwarz inequality)。
Matrix
矩阵(Matrix)。我们用 \(\mathbb{R}^{m \times n}\) 表示由 \(\mathbb{R}\) 中的元素组成的 \(m \times n\) 数组的集合。我们可以将矩阵 \(A \in \mathbb{R}^{m \times n}\) 写为
矩阵的转置(Transpose of Matrix)。
给定一个 \(m \times n\) 矩阵 \(A\),其转置 \(A^T\) 定义为以下 \(n \times m\) 矩阵:
对称矩阵(Symmetric matrix)。
一个 \(m \times m\) 的实矩阵 \(A\) 被称为对称的,如果 \(A = A^T\)。
矩阵的特征值
计算矩阵的特征值是线性代数中的一个重要问题。以下是计算矩阵特征值的详细步骤和方法:
特征值的定义
对于一个 $n \times n $的方阵 A ,如果存在一个标量 $\lambda $ 和一个非零向量 $ \mathbf{v}$,使得:
那么 $ \lambda $ 被称为矩阵 $ A $ 的特征值,$ \mathbf{v} $ 被称为对应的特征向量。
计算特征值的步骤
-
构造特征方程:
-
将特征值定义改写为:
\[(A - \lambda I) \mathbf{v} = 0, \]其中 $ I $ 是单位矩阵,$ \lambda $ 是标量。
-
为了使 $ \mathbf{v} \neq 0 $ ,矩阵 $ A - \lambda I $ 必须是奇异的(即不可逆),因此:
\[\det(A - \lambda I) = 0. \] -
这个方程被称为 特征方程。
-
-
求解特征方程:
- $ \det(A - \lambda I) = 0 $ 是一个关于 $ \lambda $ 的多项式方程,称为 特征多项式。
- 解这个多项式方程,得到所有的 $ \lambda $ ,即为矩阵 $ A$ 的特征值。
举例
假设矩阵 \(A\) 为:
步骤 1:构造特征方程
计算行列式:
展开:
步骤 2:求解特征方程
解特征多项式 $ \lambda^2 - 7\lambda + 10 = 0 $:
得到特征值:
特征向量的求解是线性代数中的一个重要问题。以下是详细的步骤和方法:
步骤 3:求特征向量
对于每个特征值 $ \lambda $ ,求解 $ ( A - \lambda I) \mathbf{v} = 0 $ 。
-
当 $ \lambda = 5 $ 时:
\[A - 5I = \begin{bmatrix} -1 & 2 \\ 1 & -2 \end{bmatrix}. \]解方程 $ (A - 5I) \mathbf{v} = 0$ ,即:
\[\begin{bmatrix} -1 & 2 \\ 1 & -2 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = 0. \]化简得到:
\[-v_1 + 2v_2 = 0 \quad \Rightarrow \quad v_1 = 2v_2. \]取 $ v_2 = 1 $,则 $ \mathbf{v}_1 = \begin{bmatrix} 2 \ 1 \end{bmatrix} $。
-
当 $\lambda = 2 $ 时:
\[A - 2I = \begin{bmatrix} 2 & 2 \\ 1 & 1 \end{bmatrix}. \]解方程 $ (A - 2I) \mathbf{v} = 0 $,即:
\[\begin{bmatrix} 2 & 2 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = 0. \]化简得到:
\[2v_1 + 2v_2 = 0 \quad \Rightarrow \quad v_1 = -v_2. \]取 $ v_2 = 1 $,则 $ \mathbf{v}_2 = \begin{bmatrix} -1 \ 1 \end{bmatrix} $。
结果
矩阵 ( A ) 的特征值和对应的特征向量为:
- 特征值 $ \lambda_1 = 5 $,特征向量 $ \mathbf{v}_1 = \begin{bmatrix} 2 \ 1 \end{bmatrix} $;
- 特征值 $ \lambda_2 = 2 $,特征向量 $ \mathbf{v}_2 = \begin{bmatrix} -1 \ 1 \end{bmatrix} $。
矩阵乘法。
矩阵 \(A \in \mathbb{R}^{m \times n}\) 和 \(B \in \mathbb{R}^{n \times p}\) 之间的矩阵乘法定义为\(\mathbb{R}^{m \times p} \ni C = AB \text{ 其中 } c_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}.\)
矩阵与向量的乘法可以视为矩阵乘法的特例,即,当 \(A \in \mathbb{R}^{m \times n}\) 和 \(b \in \mathbb{R}^{n}\) 时,我们有\(\mathbb{R}^{m} \ni c = Ab \text{ 其中 } c_{i} = \sum_{k=1}^{n} a_{ik}b_{k}.\)
-
矩阵乘法的三种视角。对于 \(C = AB\) 有三种(等价的)重要解释:
- 第一种是通过定义
\[c_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}, \quad \forall i = 1, 2, \dots, m, \quad j = 1, 2, \dots, p. \]- 第二种是通过外积
\[C = \sum_{k=1}^{n} a_k b_k^T, \]其中 \(a_k\) 和 \(b_k^T\) 分别是 \(A\) 和 \(B\) 的第 \(k\) 列和第 \(k\) 行。
- 第三种是通过矩阵-向量乘积
\[c_j = Ab_j, \quad \forall j = 1, 2, \dots, p. \]
秩(Rank)。
矩阵 \(A \in \mathbb{R}^{m \times n}\) 的秩,记作 \(\text{rank}(A)\),定义为其列或行的一个最大线性无关子集的元素个数。关于矩阵秩的一些事实:
- \(\text{rank}(A) = \text{rank}(A^T)\);
- \(\text{rank}(A+B) \leq \text{rank}(A) + \text{rank}(B)\);
- \(\text{rank}(AB) \leq \min\{\text{rank}(A), \text{rank}(B)\}\)。
以下是针对不同方法求矩阵秩的具体例子:
方法 1:通过行变换化为阶梯形矩阵
假设矩阵 $ A $:
步骤:
-
对矩阵进行初等行变换:
-
$ R_2 \to R_2 - 2R_1 $,得到:
\[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 1 & 1 & 1 \end{bmatrix}. \] -
$ R_3 \to R_3 - R_1 $,得到:
\[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 0 & -1 & -2 \end{bmatrix}. \]
-
-
$ R_3 \to R_3 \div (-1) $,得到:
\[\begin{bmatrix} 1 & 2 & 3 \\ 0 & 0 & 0 \\ 0 & 1 & 2 \end{bmatrix}. \] -
阶梯形矩阵中有 2 行非零行,因此矩阵的秩为:
\[\text{rank}(A) = 2. \]
方法 2:通过列变换化为列阶梯形矩阵
假设矩阵 $ B $:
步骤:
-
对矩阵进行初等列变换:
-
$ C_2 \to C_2 - 2C_1 $,得到:
\[\begin{bmatrix} 1 & 0 & 3 \\ 2 & 0 & 6 \\ 1 & -1 & 1 \end{bmatrix}. \] -
$ C_3 \to C_3 - 3C_1 $,得到:
\[\begin{bmatrix} 1 & 0 & 0 \\ 2 & 0 & 0 \\ 1 & -1 & -2 \end{bmatrix}. \]
-
-
$ C_3 \to C_3 + 2C_2 $,得到:
\[\begin{bmatrix} 1 & 0 & 0 \\ 2 & 0 & 0 \\ 1 & -1 & 0 \end{bmatrix}. \] -
列阶梯形矩阵中有 2 列非零列,因此矩阵的秩为:
\[\text{rank}(B) = 2. \]
方法 3:通过计算最大线性无关子集
假设矩阵 ( C ):
步骤:
-
将矩阵的列向量视为向量集合:
\[\mathbf{v}_1 = \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix}, \quad \mathbf{v}_2 = \begin{bmatrix} 2 \\ 4 \\ 1 \end{bmatrix}, \quad \mathbf{v}_3 = \begin{bmatrix} 3 \\ 6 \\ 1 \end{bmatrix}. \] -
检查线性无关性:
- $ \mathbf{v}_2 = 2\mathbf{v}_1 $,因此 $ \mathbf{v}_2 $是线性相关的。
- $ \mathbf{v}_3 = 3\mathbf{v}_1 $,因此 $ \mathbf{v}_3 $是线性相关的。
-
最大线性无关子集为 $ {\mathbf{v}_1, \mathbf{v}_3} $,因此矩阵的秩为:
\[\text{rank}(C) = 2. \]
方法 4:通过奇异值分解(SVD)
假设矩阵 $ D $:
步骤:
-
对矩阵 $ D $ 进行奇异值分解,得到奇异值:
\[\sigma_1 = 7.348, \quad \sigma_2 = 0.803, \quad \sigma_3 = 0. \] -
奇异值中非零值的个数为 2,因此矩阵的秩为:
\[\text{rank}(D) = 2. \]
方法 5:通过行列式(适用于方阵)
假设矩阵 $ E $:
步骤:
-
计算矩阵的行列式:
\[\det(E) = 1(5 \cdot 9 - 6 \cdot 8) - 2(4 \cdot 9 - 6 \cdot 7) + 3(4 \cdot 8 - 5 \cdot 7) = 0. \] -
行列式为零,说明矩阵的秩小于 3。
-
进一步分析矩阵的线性无关性(通过初等行变换或其他方法),发现矩阵的秩为:
\[\text{rank}(E) = 2. \]
这些方法可以根据具体情况选择使用,最常用的是 初等行变换 和 线性无关性分析。
矩阵逆。
一个 $ n \times n$的方阵 \(A\) 被称为可逆的,如果 \(A\) 的列具有满秩。矩阵 \(A\) 的逆记作 \(A^{-1}\),我们有
-
\[AA^{-1} = A^{-1}A = I。 \]
事实:
- \((A^{-1})^{-1} = A\)。
- \((AB)^{-1} = B^{-1}A^{-1}\),其中 \(A, B\) 是方阵且可逆。
奇异值分解 (Singular Value Decomposition, SVD)
奇异值分解是线性代数中一个重要的工具,用于将矩阵分解为多个简单矩阵的乘积。它广泛应用于数据分析、机器学习、信号处理等领域。
定义
对于任意矩阵 $ A \in \mathbb{R}^{m \times n} $,奇异值分解将其分解为以下形式:
其中:
- $ U \in \mathbb{R}^{m \times m} $ 是一个正交矩阵,其列向量称为 左奇异向量;
- $ \Sigma \in \mathbb{R}^{m \times n} $ 是一个对角矩阵,其对角元素称为 奇异值;
- $ V \in \mathbb{R}^{n \times n} $ 是一个正交矩阵,其列向量称为 右奇异向量。
矩阵分解的具体形式
-
奇异值矩阵 $ \Sigma $:
- $\Sigma \(的对角元素是非负的奇异值,通常按降序排列:\) \sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r \geq 0 $,其中 $ r = \text{rank}(A) $是矩阵的秩。
- 非对角元素为零。
-
**正交矩阵 $ U $ **:
- $U $ 的列向量是矩阵 $ AA^T $ 的特征向量。
- $ U $ 满足 $ U^T U = I $,即 $ U $ 是正交矩阵。
-
正交矩阵 $ V $:
- $ V $ 的列向量是矩阵 $ A^T A $ 的特征向量。
- $ V $ 满足 $ V^T V = I $,即 $ V $ 是正交矩阵。
性质
-
奇异值的个数:
- 奇异值的个数等于矩阵 $ A $ 的秩 $ \text{rank}(A) $。
- 非零奇异值的个数反映了矩阵的线性无关性。
-
奇异值与特征值的关系:
- 奇异值是矩阵 $ A^T A $ 或 $ AA^T $ 的特征值的平方根。
-
矩阵的秩:
- 矩阵的秩等于非零奇异值的个数。
-
压缩矩阵:
- 通过保留最大的几个奇异值,可以用低秩矩阵近似原矩阵 $ A $,这在数据压缩和降维中非常有用。
计算步骤
- 计算矩阵 $ A^T A $ 的特征值和特征向量,得到 $ V $ 和奇异值。
- 计算矩阵 $ AA^T $ 的特征值和特征向量,得到 $ U $。
- 构造奇异值矩阵 $ \Sigma $,将奇异值填入对角线。
应用
-
数据降维:
- 在主成分分析 (PCA) 中,SVD用于提取数据的主要特征。
- 通过保留最大的几个奇异值,可以降低数据维度,同时保留主要信息。
-
矩阵压缩:
- 用低秩矩阵近似原矩阵 $ A $ ,减少存储空间。
-
解决线性方程组:
- 在最小二乘法中,SVD用于求解过约束或欠约束的线性方程组。
-
信号处理:
- 在噪声过滤中,SVD用于分离信号和噪声。
举例
我们以一个非对称矩阵 $ A $ 为例,详细展示奇异值分解的过程。
矩阵 $ A $
假设矩阵 $ A $ 为:
这是一个 $ 3 \times 2 $ 的矩阵。
步骤 1:计算 $ A^T A $ 和 $ AA^T $
-
计算 $ A^T A $:
\[A^T A = \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix} \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} = \begin{bmatrix} 35 & 44 \\ 44 & 56 \end{bmatrix}. \] -
计算 $ AA^T $:
\[AA^T = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} \begin{bmatrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{bmatrix} = \begin{bmatrix} 5 & 11 & 17 \\ 11 & 25 & 39 \\ 17 & 39 & 61 \end{bmatrix}. \]
步骤 2:计算特征值和特征向量
-
计算 $ A^T A $ 的特征值和特征向量:
-
特征值为 $ \lambda_1 = 91.04 $, $ \lambda_2 = 0.96 $。
-
对应的特征向量为:
\[v_1 = \begin{bmatrix} 0.58 \\ 0.82 \end{bmatrix}, \quad v_2 = \begin{bmatrix} -0.82 \\ 0.58 \end{bmatrix}. \]
-
-
计算 $ AA^T $ 的特征值和特征向量:
-
特征值与 $ A^T A $ 的特征值相同:$ \lambda_1 = 91.04 $, $ \lambda_2 = 0.96 $, $ \lambda_3 = 0 $。
-
对应的特征向量为:
\[u_1 = \begin{bmatrix} 0.23 \\ 0.53 \\ 0.82 \end{bmatrix}, \quad u_2 = \begin{bmatrix} 0.81 \\ 0.36 \\ -0.46 \end{bmatrix}, \quad u_3 = \begin{bmatrix} -0.54 \\ 0.77 \\ -0.34 \end{bmatrix}. \]
-
步骤 3:构造奇异值矩阵 $ \Sigma $
奇异值是 $ \sqrt{\lambda_1}, \sqrt{\lambda_2}, \sqrt{\lambda_3} $,即:
构造矩阵 $ \Sigma $:
步骤 4:构造 $ U, \Sigma, V^T $
-
$ U $ 是 $ AA^T $ 的特征向量:
\[U = \begin{bmatrix} 0.23 & 0.81 & -0.54 \\ 0.53 & 0.36 & 0.77 \\ 0.82 & -0.46 & -0.34 \end{bmatrix}. \] -
$ V $ 是 $ A^T A $ 的特征向量:
\[V = \begin{bmatrix} 0.58 & -0.82 \\ 0.82 & 0.58 \end{bmatrix}. \] -
$ \Sigma $ 是奇异值矩阵:
\[\Sigma = \begin{bmatrix} 9.53 & 0 \\ 0 & 0.98 \\ 0 & 0 \end{bmatrix}. \]
最终结果
奇异值分解为:
即:
验证
通过矩阵乘法验证分解结果是否等于原矩阵 $ A $。
正交矩阵(Orthogonal matrix)
一个 $ n \times n$ 的方阵 \(\mathbf{A}\) 被称为正交的或正交归一的,如果它是一个实数方阵,其列和行是正交归一向量。即,
换句话说,对于正交矩阵 \(\mathbf{A}\),我们有
正半定(定)(Positive semi-definite)
缩写为 $ PSD(PD)$ 矩阵。一个 $ n \times n$ 的实数矩阵 \(\mathbf{A}\) 被称为 $ PSD(PD)$,如果对于所有 \(\mathbf{x} \in \mathbb{R}^n\)(对于所有 \(\mathbf{x} \in \mathbb{R}^n \setminus \{\mathbf{0}\}\)),都有 \(\mathbf{x}^T \mathbf{A} \mathbf{x} \geq 0\) (\(> 0\))。
Basic Notions of Multivariate Calculus
梯度
它是导数对多维函数的推广。假设 \(f(x) = f(x_1, x_2, ..., x_n)\) 是连续可微的。那么,我们用(一个 \(n \times 1\) 的向量)表示 \(f\) 的梯度:
事实:
- 如果 \(f(x) = c^T x\),那么 \(\nabla f(x) = c\)。
- 如果 \(f(x) = x^T M x\) (\(M\) 是对称的),那么:\(\nabla f(x) = 2Mx\)。
一阶泰勒展开。一阶泰勒展开得出:
Basic Notions of Probability and Statistics
期望(Expectation)
假设 \(X\) 是一个随机变量,它的期望记作
假设 \(X\) 取离散值 \(x_1, \dots, x_k\),对应的概率为 \(p_1, \dots, p_k\),则
假设 \(X\) 取连续值在 \((-\infty, +\infty)\) 之间,具有密度 \(p(x)\),则
方差(Variance)
假设 \(X\) 是一个随机变量,它的方差记作
随机向量(Gaussian distribution)
\(\mathbf{X} = [X_1, \dots, X_n]^T\) 是一个随机向量,如果每个坐标都是一个随机变量。
随机向量的期望(Expectation of random vector)
假设 \(\mathbf{X}\) 是一个 \(n\) 维随机向量,它的期望表示为
协方差矩阵(Covariance matrix)
假设 \(\mathbf{X} = [X_1, \dots, X_n]^T\) 是一个 \(n\) 维随机向量,它的协方差矩阵是一个 $ n \times n$ 矩阵,定义为
高斯分布
随机变量 \(X\) 被称为遵循 \(\mathcal{N}(\mu, \sigma^2)\)(均值为 \(\mu\),方差为 \(\sigma^2\) 的高斯分布),如果其概率密度函数(PDF)由以下公式给出:
多元高斯分布
我们说随机向量 \(X \in \mathbb{R}^d\) 遵循均值为 \(\mu\) 和协方差矩阵 $ \Sigma $(假设为正定)的高斯分布,如果其 PDF 由以下公式给出:

Basic Notions of Optimization
优化
寻找最大值或最小值。正式来说,寻找 \(f\) 在 $ \mathbb{R}^n $ 上的最小值可以写作
全局最小化器(Global minimizer)
找到点 \(\theta^*\)(称为全局最小化器/全局最优解/最优解),使得 \(f\) 在 $ \mathbb{R}^n $ 上达到最小值
显然,\(f(\theta^*) = \min_{\theta \in \mathbb{R}^n} f(\theta)\)。
图片是一个开口向上的抛物线,最低点标记为 \(\theta^*\),横轴为 \(\theta\)。
Supervised Learning: Hypothesis/Model
- 我们有一个潜在的未知假设/模型 \(g \in \mathcal{H}\)
其中 \(\mathcal{X}\) 是输入空间(所有可能输入的集合),而 \(\mathcal{Y}\) 是输出空间(标签空间)。在我们的例子中,\(g\) 是将 \(x_i\) 映射到 \(y_i\) 的目标函数。
- 从假设/模型空间 \(\mathcal{H}\) 中基于训练数据集 \(\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}\) 学习一个模型 \(f\)。理想情况下,\(f\) 应该完全捕捉数据中的模式,即它很好地逼近目标函数 \(g\)
- 假设空间 \(\mathcal{H}\) 是学习过程中最难 预先确定 的部分之一。\(\mathcal{H}\) 的一个典型实例是所有可能的 线性 拟合数据的集合(产生 线性模型),而另一个流行的选择是 非线性模型(例如,神经网络)。
参数化:
示例:
- 在线性回归中,\(f_\theta(x) = \theta^T x\) 是所有可能的线性拟合,\(\theta\) 是模型的参数。一个特定的 \(\theta\) 决定了一个特定的模型。
- 在深度学习中,\(f_\theta\) 是神经网络,\(\theta\) 分别代表权重(网络参数)。
假设空间 \(\mathcal{H}\) 的两个主要类别:
-
线性
- 线性回归
- 线性分类
-
非线性
- 神经网络
-
给定训练数据集 \((x_1, y_1), \dots, (x_n, y_n)\)。
-
选择假设 \(f_\theta\)。
-
选择损失函数 \(\ell: \mathbb{R} \rightarrow \mathbb{R}\)。
-
学习/优化问题
优化算法 \(\mathcal{A}\) 旨在解决 (P)。
在学习得到 \(\widehat{\theta}\) 后,我们得到学习模型 \(f_{\widehat{\theta}}\)。然后,可以使用学习到的 \(f_{\widehat{\theta}}\) 进行预测。
形式化:
-
目标函数 \(g: X \rightarrow Y\) (基础信用审批模型)
-
训练数据集:\((x_1, y_1), \dots, (x_n, y_n)\) (历史记录)
-
假设空间 \(\mathcal{H}\) (学习范围以近似 \(g\))
-
假设/模型:\(f_\theta\) (待确定的模型)
-
优化算法:\(\mathcal{A}\) (从数据中学习模型)


浙公网安备 33010602011771号