向量形式表达最小二乘法
数学公式 \(\min_{w} || X w - y||_2^2\) 也是表达最小二乘法,但它使用了矩阵和向量的形式,这在处理多维数据和编程时更常见、更简洁。
公式解释
这个公式的核心思想与更常见的最小二乘表示公式 \(\sum_{i=1}^{n} (y_i - \hat{y}_i)^2\) 完全一致,只是表达方式不同。
-
\(\min_{w}\): 这部分表示我们要找到一个向量 \(w\),使得后面的表达式达到最小值。这里的 \(w\) 向量包含了所有的系数(coefficients),通常写作 \(w = [w_0, w_1, \dots, w_p]^T\)。在一些表示中,为了简化,会将截距项 \(w_0\) 整合到 \(w\) 向量中,同时在特征矩阵 \(X\) 中加入一列全为1的特征。
-
\(|| \cdot ||_2^2\): 这是L2范数的平方。
- \(||\cdot||\) 代表向量的范数(Norm),可以理解为向量的“长度”或“大小”。
- \(_2\) 表示L2范数,也叫欧几里得范数,即向量中每个元素的平方和的平方根。
- ^2 表示平方,所以 \(|| \cdot ||_2^2\) 最终就是向量中所有元素的平方和。
-
\(Xw - y\): 这是这个向量的关键部分。
- \(X\):这是一个 特征矩阵。矩阵的每一行代表一个数据样本,每一列代表一个特征。例如,如果你的数据集有 \(n\) 个样本和 \(p\) 个特征,那么 \(X\) 的维度就是 \(n \times p\)。
- \(w\): 这是一个 系数向量,维度是 \(p \times 1\)。
- \(Xw\): 矩阵 \(X\) 和向量 \(w\) 的乘法。这正是线性模型的预测过程,它会得到一个维度为 \(n \times 1\) 的预测值向量,即 \(\hat{y}\)。
- \(y\): 这是一个真实目标值向量,维度是 \(n \times 1\),包含了数据集中所有样本的真实标签。
- \(Xw - y\): 这是一个残差向量,维度是 \(n \times 1\)。向量中的每个元素都是一个样本的预测值(\(Xw\) 的一个元素)与真实值(\(y\) 的一个元素)之间的差值。
总结
将所有部分组合起来,公式 \(\min_{w} || X w - y||_2^2\) 完整的含义是:
找到一个系数向量 \(w\),使得预测值向量 \(Xw\) 与真实值向量 \(y\) 之间的残差向量的L2范数平方(即所有残差的平方和)达到最小值。
这个公式在数学上等同于 \(\sum_{i=1}^{n} (y_i - \hat{y}_i)^2\),但它利用了矩阵运算的强大和简洁性,是现代机器学习和科学计算中最常见的表示方式。

浙公网安备 33010602011771号