人工智能十大数学知识-线性代数

人工智能中的线性代数核心知识(Linear Algebra for AI)- 线性代数

1. 向量(Vector)

n维空间中的有向线段,是AI数据的“原子单元”,用于表示单个样本的特征(如“身高175cm、体重60kg”可表示为列向量[175, 60]^T)。
AI中优先使用列向量,可直接匹配矩阵乘法规则(如全连接层输入需为列向量)。

1.1 向量的定义与表示

  • 公式:列向量 \(\vec{a} = (a_1, a_2, \cdots, a_n)^T \in \mathbb{R}^n\),其中 \(T\) 表示“转置”(将行向量转为列向量)。
  • 解说:单个样本的所有特征(如图像像素值、文本词频)均以向量形式存储;\(\mathbb{R}^n\) 表示向量属于n维实数空间,符合AI中特征的数值属性。

1.2 向量的基本运算

加法

  • 公式:设列向量 $ \vec{a}=(a_1,a_2,\cdots,a_n)^T \(、\) \vec{b}=(b_1,b_2,\cdots,b_n)^T$,则 \(\vec{a}+\vec{b}=(a_1+b_1, a_2+b_2, \cdots, a_n+b_n)^T\)
  • 性质:满足交换律(\(\vec{a}+\vec{b}=\vec{b}+\vec{a}\))和结合律(\((\vec{a}+\vec{b})+\vec{c}=\vec{a}+(\vec{b}+\vec{c})\))。
  • AI应用:批量特征增广(如给所有样本的特征向量添加“偏置项1”)、特征叠加(如两个动作特征向量的合成)。

数乘

  • 公式:设标量 \(k \in \mathbb{R}\),则 \(k\vec{a}=(k a_1, k a_2, \cdots, k a_n)^T\)
  • 性质\(k>0\) 时,\(k\vec{a}\)\(\vec{a}\) 方向相同;\(k<0\) 时方向相反;\(k=0\) 时为零向量 \(\vec{0}\)
  • AI应用:特征缩放(如将“年龄(0-100)”乘以0.01,与“身高(100-200)”统一量纲)、梯度更新(如梯度乘以学习率 \(\eta\),控制参数调整步长)。

内积(点积)

  • 公式\(\vec{a} \cdot \vec{b} = \sum_{i=1}^n a_i b_i = \|\vec{a}\|_2 \cdot \|\vec{b}\|_2 \cdot \cos\theta\),其中 \(\theta\)\(\vec{a}\)\(\vec{b}\) 的夹角,\(\|\cdot\|_2\) 表示L2范数。
  • 核心性质:内积结果为标量;若 \(\vec{a} \cdot \vec{b}=0\),则 \(\vec{a}\)\(\vec{b}\) 正交(垂直)。
  • AI应用:余弦相似度计算(归一化内积,如词嵌入的语义相似度)、全连接层输出(输入向量与权重向量的内积加偏置)。

1.3 向量的范数(Norm)

  • 公式
    1. L1范数:\(\|\vec{a}\|_1 = \sum_{i=1}^n |a_i|\)(各分量绝对值之和);
    2. L2范数:\(\|\vec{a}\|_2 = \sqrt{\sum_{i=1}^n a_i^2} = \sqrt{\vec{a}^T \vec{a}}\)(欧几里得距离,向量“长度”);
    3. L∞范数:\(\|\vec{a}\|_\infty = \max_{1 \leq i \leq n} |a_i|\)(最大分量的绝对值)。
  • AI应用
    • L2范数:岭回归正则化(\(\text{Loss} + \lambda \|\theta\|_2^2\),惩罚大参数,防止过拟合);
    • L1范数:Lasso回归特征选择(\(\text{Loss} + \lambda \|\theta\|_1\),强制部分参数为0,剔除无关特征)。

2. 矩阵(Matrix)

二维实数数组,用于组织AI中的批量数据或线性变换规则,格式记为 \(A \in \mathbb{R}^{m \times n}\)(m行n列,m为样本数/输出维度,n为特征数/输入维度)。

2.1 矩阵的定义与核心作用

  • 示例1(批量样本):100个“身高-体重”样本,可表示为 \(X \in \mathbb{R}^{100 \times 2}\)(每行1个样本,每列1个特征);
  • 示例2(权重矩阵):全连接层从2维输入映射到5维输出,权重矩阵 \(W \in \mathbb{R}^{5 \times 2}\)(每行对应1个输出特征的权重)。

2.2 矩阵的基本运算

加法

  • 前提:仅同型矩阵可加(行数、列数分别相等);
  • 公式:设 \(A=(a_{ij})\)\(B=(b_{ij})\),则 \((A+B)_{ij} = a_{ij} + b_{ij}\)(对应元素相加);
  • 性质:满足交换律(\(A+B=B+A\))和结合律(\((A+B)+C=A+(B+C)\))。

数乘

  • 公式:设标量 \(k \in \mathbb{R}\),则 \((kA)_{ij} = k \cdot a_{ij}\)(所有元素乘以k);
  • AI应用:权重缩放(如神经网络初始化后,用0.01缩放权重矩阵以稳定梯度)。

乘法

  • 前提:前矩阵列数 = 后矩阵行数(如 \(A \in \mathbb{R}^{m \times p}\)\(B \in \mathbb{R}^{p \times n}\));
  • 公式:乘积 \(C=AB \in \mathbb{R}^{m \times n}\),元素 \(C_{ij} = \sum_{k=1}^p a_{ik} b_{kj}\)(A的第i行与B的第j列的内积);
  • 核心性质:不满足交换律(\(AB \neq BA\)),但满足结合律(\((AB)C=A(BC)\));
  • AI核心应用:全连接层计算 \(Y=WX+b\),其中 \(X \in \mathbb{R}^{n \times batch}\)(每列1个样本),\(W \in \mathbb{R}^{p \times n}\)\(Y \in \mathbb{R}^{p \times batch}\)(批量输出)。

转置

  • 公式:矩阵 \(A\) 的转置 \(A^T\) 满足 \((A^T)_{ij} = A_{ji}\)(行与列交换);
  • 关键性质\((AB)^T = B^T A^T\)(乘积的转置=转置的反向乘积);
  • AI应用:梯度维度对齐(反向传播中,权重梯度矩阵需转置后与误差矩阵相乘)。

2.3 特殊矩阵

矩阵类型 定义与公式 AI应用场景
单位矩阵(\(I\) \(n\)阶方阵,主对角线为1,其余为0:\(I_{ij}=\begin{cases}1, & i=j \\ 0, & i \neq j\end{cases}\) 权重初始化(如Identity初始化)、矩阵逆验证(\(AI=IA=A\)
对称矩阵 满足 \(A^T = A\) 的方阵(元素 \(a_{ij}=a_{ji}\) 协方差矩阵(描述特征间相关性,必为对称矩阵)
对角矩阵 主对角线外元素全为0,记为 \(diag(\lambda_1, \lambda_2, \cdots, \lambda_n)\) 特征值存储(EVD/SVD分解后的特征值/奇异值矩阵)

2.4 矩阵的逆(Inverse)

  • 定义:对 \(n\) 阶方阵 \(A\),若存在 \(B\) 使 \(AB=BA=I\),则 \(B=A^{-1}\)\(A\) 的逆矩阵);
  • 可逆条件\(\det(A) \neq 0\)(行列式非零)或 \(\text{rank}(A)=n\)(满秩);
  • AI应用:线性方程组求解(\(Ax=b \Rightarrow x=A^{-1}b\),如无正则化的线性回归参数解析解)。

3. 特征值与特征向量(Eigenvalue & Eigenvector, EVD)

描述方阵的“固有属性”:特征向量是线性变换中方向不变的向量,特征值是该方向的“缩放比例”,是PCA等降维算法的核心。

3.1 核心定义与方程

  • 特征方程:对 \(n\) 阶方阵 \(A\),存在非零向量 \(\vec{v}\) 和标量 \(\lambda\),满足 \(A\vec{v} = \lambda \vec{v}\)
    • \(\vec{v}\)\(A\) 的特征向量(非零,方向不变);
    • \(\lambda\)\(\vec{v}\) 对应的特征值(缩放比例,值越大表示该方向“信息越重要”);
  • 特征值求解:通过特征多项式 \(\det(A - \lambda I) = 0\) 计算(展开多项式后求根)。

3.2 特征值分解(EVD)

  • 前提:仅适用于对称方阵\(A^T=A\),AI中常见如协方差矩阵);
  • 公式\(A = Q\Lambda Q^T\),其中:
    • \(Q\)\(n \times n\) 正交矩阵(列是 \(A\) 的单位特征向量,满足 \(Q^T Q = I\));
    • \(\Lambda\)\(n \times n\) 对角矩阵(对角线是 \(A\) 的特征值,按从大到小排序);
  • AI应用:主成分分析(PCA),通过EVD分解协方差矩阵,取前k个大特征值对应的特征向量,将高维数据投影到k维主成分空间(降维去冗余)。

4. 奇异值分解(Singular Value Decomposition, SVD)

EVD的推广,适用于任意矩阵(无需对称/方阵),是推荐系统、图像降噪的核心工具。

4.1 核心公式与组件

  • 公式:对任意 \(m \times n\) 矩阵 \(A\),可分解为 \(A = U\Sigma V^T\),其中:
    • \(U\)\(m \times m\) 正交矩阵(左奇异向量,\(AA^T\) 的特征向量);
    • \(\Sigma\)\(m \times n\) 对角矩阵(奇异值 \(\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0\)\(r=\text{rank}(A)\));
    • \(V\)\(n \times n\) 正交矩阵(右奇异向量,\(A^T A\) 的特征向量);
  • 核心意义:奇异值 \(\sigma_i\) 表示矩阵 \(A\) 在对应方向的“信息强度”,前k个大奇异值可代表矩阵的主要信息。

4.2 低秩近似(Low-Rank Approximation)

  • 公式:用前k个奇异值近似 \(A\),得 \(A_k = U_k \Sigma_k V_k^T\),其中:
    • \(U_k\)\(U\) 的前k列,\(\Sigma_k\)\(\Sigma\) 的前k×k子矩阵,\(V_k\)\(V\) 的前k列;
  • AI应用
    • 推荐系统:分解用户-物品评分矩阵(\(A \in \mathbb{R}^{用户数 \times 物品数}\)),用 \(A_k\) 补全缺失评分;
    • 图像降噪:保留大奇异值(图像结构),剔除小奇异值(噪声),实现无损压缩。

5. 矩阵的秩与迹(Rank & Trace)

5.1 矩阵的秩(Rank)

  • 定义\(\text{rank}(A)\) 是矩阵 \(A\) 中行/列向量组的“极大线性无关组数量”,反映矩阵的“有效信息含量”;
  • 核心性质
    1. \(\text{rank}(A) = \text{rank}(A^T)\)(行秩=列秩);
    2. \(\text{rank}(AB) \leq \min(\text{rank}(A), \text{rank}(B))\)(乘积秩不超过原矩阵秩);
  • AI应用:线性回归可行性判断(需 \(\text{rank}(X)=n\),否则特征冗余,需加正则化如岭回归)。

5.2 矩阵的迹(Trace)

  • 定义:仅适用于方阵,\(\text{tr}(A) = \sum_{i=1}^n A_{ii}\)(主对角线元素之和);
  • 关键性质
    1. \(\text{tr}(A) = \sum_{i=1}^n \lambda_i\)(迹=所有特征值之和);
    2. 循环不变性:\(\text{tr}(AB) = \text{tr}(BA)\)(无关矩阵维度,只要乘积为方阵);
  • AI应用:简化范数计算(如Frobenius范数平方 \(\|A\|_F^2 = \text{tr}(A^T A)\))、迹正则化(约束权重矩阵复杂度,防止过拟合)。

6. 正交矩阵(Orthogonal Matrix)

  • 定义:满足 \(Q^T Q = Q Q^T = I\) 的方阵,其列/行向量是“单位正交向量”(长度为1,两两正交);
  • 核心性质\(Q^{-1} = Q^T\)(逆矩阵=转置,大幅降低计算量)、保持向量范数(\(\|Q\vec{a}\|_2 = \|\vec{a}\|_2\),无拉伸扭曲);
  • AI应用
    • 权重正交初始化(神经网络初始化时用正交矩阵,避免梯度消失/爆炸);
    • SVD分解(\(U\)\(V\) 均为正交矩阵,保证降维后数据范数不变)。

7. 线性变换与线性方程组(Linear Transformation & Linear Equations)

7.1 线性变换的定义与矩阵表示

  • 定义:变换 \(T: \mathbb{R}^n \to \mathbb{R}^m\) 满足“可加性”和“齐次性”:
    1. \(T(\vec{a} + \vec{b}) = T(\vec{a}) + T(\vec{b})\)
    2. \(T(k\vec{a}) = kT(\vec{a})\)
  • 矩阵表示:任意线性变换可写成 \(T(\vec{x}) = A\vec{x}\)\(A\) 为变换矩阵,维度 \(m \times n\));
  • AI应用
    • 全连接层:全局线性变换(\(T(\vec{x})=W\vec{x}+b\));
    • 卷积层:局部线性变换(用卷积核矩阵提取局部像素特征)。

7.2 线性方程组的求解与AI应用

  • 核心方程\(Ax = b\)\(A \in \mathbb{R}^{m \times n}\) 为系数矩阵,\(x\) 为待求变量,\(b\) 为结果向量);
  • 解的判定
    1. 唯一解:\(\text{rank}(A) = \text{rank}([A|b]) = n\)\([A|b]\) 为增广矩阵),解为 \(x=A^{-1}b\)
    2. 无穷解:\(\text{rank}(A) = \text{rank}([A|b]) < n\)(特征冗余);
    3. 无解(超定):\(\text{rank}(A) < \text{rank}([A|b])\),用最小二乘解 \(x=(A^T A)^{-1} A^T b\)
  • AI应用:线性回归(最小二乘解即模型参数 \(\theta\),最小化残差平方和 \(\|y - X\theta\|_2^2\))。

8. 线性代数在AI中的核心应用场景

  1. 机器学习模型
    • 线性回归:参数解析解 \(\theta=(X^TX)^{-1}X^Ty\)
    • SVM:线性核函数 \(K(X_i,X_j)=X_i^TX_j\) 计算分类间隔;
  2. 深度学习
    • 神经网络层:线性变换 \(Z=WX+b\) 加激活函数;
    • 反向传播:梯度计算依赖矩阵乘法与转置(如 \(\frac{\partial Loss}{\partial W} = \frac{\partial Loss}{\partial Z} X^T\));
  3. 自然语言处理
    • 词嵌入:用矩阵分解(如Word2Vec)将词映射为向量;
    • 文本相似度:通过向量内积/余弦相似度比较文本;
  4. 图像处理
    • 图像变换:矩阵乘法实现旋转(旋转矩阵)、缩放(缩放矩阵);
    • 图像压缩:SVD低秩近似减少像素维度;
  5. 优化问题
    • 梯度下降:参数更新 \(\theta = \theta - \eta \nabla J(\theta)\)(向量运算);
    • 正则化:L1/L2范数约束参数,防止过拟合。

9. 关键结论

  • 正交性价值:特征向量/矩阵列向量正交时,模型参数解耦,训练效率提升(如PCA的主成分正交,无信息冗余);
  • 低秩优势:通过SVD/EVD保留前k个大特征值/奇异值,可在压缩数据的同时保留核心信息;
  • 并行适配:矩阵运算(如乘法、转置)可通过GPU并行加速,支撑大规模AI数据处理(如批量样本推理)。

附录:线性代数核心符号总结(读音+使用场景)

符号 写法规范 读音 核心使用场景
\(\vec{a}\) 向量头顶加箭头 “向量a” 表示单个样本的特征(如输入向量、梯度向量)
\(A\) 大写英文字母 “矩阵A” 表示批量样本(如 \(X \in \mathbb{R}^{m \times n}\))或线性变换权重(如 \(W\)
\(\mathbb{R}^n\) 黑体R加维度n “n维实数空间” 表示向量/矩阵的数值域(AI中特征多为实数,故用 \(\mathbb{R}\)
\(A^T\) 矩阵右上角加T “A的转置” 调整矩阵维度以匹配乘法(如批量样本列转行)、正交矩阵逆计算(\(Q^{-1}=Q^T\)
\(\det(A)\) det加矩阵A “A的行列式” 判断方阵可逆性(\(\det(A) \neq 0\) 可逆)、求解特征值(特征多项式)
\(\text{rank}(A)\) rank加矩阵A “A的秩” 衡量矩阵有效信息含量(如判断线性回归特征是否冗余)
\(\text{tr}(A)\) tr加矩阵A “A的迹” 简化范数计算(\(|A|_F^2 = \text{tr}(A^T A)\))、特征值求和(\(\text{tr}(A)=\sum \lambda_i\)
\(\lambda\) 希腊字母lambda “lambda” 1. 特征值(EVD中矩阵的缩放比例);2. 正则化参数(如L1/L2中的惩罚系数)
\(\sigma\) 希腊字母sigma “sigma” 1. 奇异值(SVD中矩阵的信息强度);2. 奇异值分解中的对角矩阵(\(\Sigma\)
\(|\vec{a}|_p\) 双竖线加下标p “向量a的p范数” 衡量向量大小(L1范数:\(|\vec{a}|_1\),L2范数:\(|\vec{a}|_2\)
\(|A|_F\) 双竖线加下标F “A的F范数” 衡量矩阵大小(\(|A|_F = \sqrt{\sum_{i,j} A_{ij}^2}\)),用于权重正则化
\(I\) 大写英文字母I “单位矩阵” 矩阵乘法 identity 元素(\(AI=IA=A\))、权重初始化(如Identity初始化)
\(\vec{0}\) 零向量加箭头 “零向量” 表示空特征(如无梯度更新时的梯度向量)、线性无关判定(组合为零向量)
\(\theta\) 希腊字母theta “theta” 表示模型参数(如线性回归的系数 \(\theta\)、神经网络的权重参数)
\(\eta\) 希腊字母eta “eta” 表示学习率(梯度下降中控制参数更新步长,如 \(\theta = \theta - \eta \nabla J\)

posted on 2025-10-27 17:33  何苦->  阅读(3)  评论(0)    收藏  举报

导航