向量形式表达最小二乘法

数学公式 \(\min_{w} || X w - y||_2^2\) 也是表达最小二乘法,但它使用了矩阵和向量的形式,这在处理多维数据和编程时更常见、更简洁。

公式解释

这个公式的核心思想与更常见的最小二乘表示公式 \(\sum_{i=1}^{n} (y_i - \hat{y}_i)^2\) 完全一致,只是表达方式不同。

  • \(\min_{w}\): 这部分表示我们要找到一个向量 \(w\),使得后面的表达式达到最小值。这里的 \(w\) 向量包含了所有的系数(coefficients),通常写作 \(w = [w_0, w_1, \dots, w_p]^T\)。在一些表示中,为了简化,会将截距项 \(w_0\) 整合到 \(w\) 向量中,同时在特征矩阵 \(X\) 中加入一列全为1的特征。

  • \(|| \cdot ||_2^2\): 这是L2范数的平方

    • \(||\cdot||\) 代表向量的范数(Norm),可以理解为向量的“长度”或“大小”。
    • \(_2\) 表示L2范数,也叫欧几里得范数,即向量中每个元素的平方和的平方根。
    • ^2 表示平方,所以 \(|| \cdot ||_2^2\) 最终就是向量中所有元素的平方和
  • \(Xw - y\): 这是这个向量的关键部分。

    • \(X\):这是一个 特征矩阵。矩阵的每一行代表一个数据样本,每一列代表一个特征。例如,如果你的数据集有 \(n\) 个样本和 \(p\) 个特征,那么 \(X\) 的维度就是 \(n \times p\)
    • \(w\): 这是一个 系数向量,维度是 \(p \times 1\)
    • \(Xw\): 矩阵 \(X\) 和向量 \(w\) 的乘法。这正是线性模型的预测过程,它会得到一个维度为 \(n \times 1\)预测值向量,即 \(\hat{y}\)
    • \(y\): 这是一个真实目标值向量,维度是 \(n \times 1\),包含了数据集中所有样本的真实标签。
    • \(Xw - y\): 这是一个残差向量,维度是 \(n \times 1\)。向量中的每个元素都是一个样本的预测值\(Xw\) 的一个元素)与真实值\(y\) 的一个元素)之间的差值

总结

将所有部分组合起来,公式 \(\min_{w} || X w - y||_2^2\) 完整的含义是:

找到一个系数向量 \(w\),使得预测值向量 \(Xw\) 与真实值向量 \(y\) 之间的残差向量的L2范数平方(即所有残差的平方和)达到最小值。

这个公式在数学上等同于 \(\sum_{i=1}^{n} (y_i - \hat{y}_i)^2\),但它利用了矩阵运算的强大和简洁性,是现代机器学习和科学计算中最常见的表示方式。

posted @ 2025-09-06 18:56  立体风  阅读(16)  评论(0)    收藏  举报