大模型从0到精通:从直线到万能曲线拟合器——神经网络的本质 - 教程
本文是《大模型从0到精通》系列第一卷“奠基篇”的第四章。前三章我们建立了线性模型+损失函数+梯度下降的完整框架,但线性模型只能拟合直线。本章将引入神经网络,通过“分层”与“非线性激活”,让模型从“一条直线”进化成“万能曲线拟合器”,这是深度学习能力的结构基础。
一、线性模型的“阿喀琉斯之踵”
回顾我们的奶茶店案例:销售额 = a × 气温 + b
这个线性模型有个致命缺陷:只能拟合直线关系。
现实世界很少是直线
实际业务中,关系往往是曲线:
- 气温-销量:太冷没人出门,太热也不想喝,中间有最优温度
- 广告投入-销量:投入太少没效果,投入太多有边际递减
- 学习时间-成绩:刚开始进步快,后面进步慢
线性模型的局限:无论怎么调整a和b,永远是一条直线,无法弯曲。

二、神经网络的核心理念:分层与折叠
从“一个公式”到“多个公式协作”
线性模型:y = a₁x + b₁(一个公式)
神经网络思路:
第一层:用多个线性公式
h₁ = a₁x + b₁ h₂ = a₂x + b₂ h₃ = a₃x + b₃每个公式从不同角度“观察”输入
第二层:综合第一层的输出
y = c₁h₁ + c₂h₂ + c₃h₃ + d加权综合所有“观察结果”
但这样还不够!
如果只是线性叠加:
y = c₁(a₁x + b₁) + c₂(a₂x + b₂) + c₃(a₃x + b₃) + d
展开后:y = (c₁a₁ + c₂a₂ + c₃a₃)x + (c₁b₁ + c₂b₂ + c₃b₃ + d)
这仍然是一个线性模型!只是参数更多而已。

浙公网安备 33010602011771号