大模型从0到精通:从直线到万能曲线拟合器——神经网络的本质 - 教程

本文是《大模型从0到精通》系列第一卷“奠基篇”的第四章。前三章我们建立了线性模型+损失函数+梯度下降的完整框架,但线性模型只能拟合直线。本章将引入神经网络,通过“分层”与“非线性激活”,让模型从“一条直线”进化成“万能曲线拟合器”,这是深度学习能力的结构基础。

一、线性模型的“阿喀琉斯之踵”

回顾我们的奶茶店案例:销售额 = a × 气温 + b

这个线性模型有个致命缺陷:只能拟合直线关系

现实世界很少是直线

实际业务中,关系往往是曲线:

  • 气温-销量:太冷没人出门,太热也不想喝,中间有最优温度
  • 广告投入-销量:投入太少没效果,投入太多有边际递减
  • 学习时间-成绩:刚开始进步快,后面进步慢

线性模型的局限:无论怎么调整a和b,永远是一条直线,无法弯曲。

在这里插入图片描述

二、神经网络的核心理念:分层与折叠

从“一个公式”到“多个公式协作”

线性模型:y = a₁x + b₁(一个公式)

神经网络思路:

  1. 第一层:用多个线性公式

    h₁ = a₁x + b₁
    h₂ = a₂x + b₂
    h₃ = a₃x + b₃

    每个公式从不同角度“观察”输入

  2. 第二层:综合第一层的输出

    y = c₁h₁ + c₂h₂ + c₃h₃ + d

    加权综合所有“观察结果”

但这样还不够!

如果只是线性叠加:

y = c₁(a₁x + b₁) + c₂(a₂x + b₂) + c₃(a₃x + b₃) + d

展开后:y = (c₁a₁ + c₂a₂ + c₃a₃)x + (c₁b₁ + c₂b₂ + c₃b₃ + d)

这仍然是一个线性模型!只是参数更多而已。

在这里插入图片描述

posted @ 2026-01-11 22:56  clnchanpin  阅读(42)  评论(0)    收藏  举报