大模型的原理学习(一)
我将开始学习大模型的实现原理
先上一张图:

这个是完整的架构,比较复杂,所以我将从0开始学习,会分为多篇来记录我的学习过程。
早期理论萌芽
很早以前,人们就发现世界可以用函数来描述规则(Functions describe the world),例如 :牛顿发现万有引力,验证出了万有引力公式。
但那时候,有一个隐含共识:逻辑、推理、意识、判断这些精神世界的东西无法用数学来描述。
● 生物学基础:人类大脑包含约860亿个神经元,通过100万亿个突触连接形成复杂网络,是认知与表达能力的物质基础。
● 循环结构(1901年):圣地亚哥·拉蒙·卡哈尔观察到小脑皮质中的循环半圆结构,提出了兴奋环路概念,打破了神经系统仅为潜馈结构的认知。
● 马尔可夫链(1906年):安德烈·马尔可夫提出马尔可夫链,为随机过程和序列数据提供了数学框架,成为统计语言模型(SLM)的基础。
● M-P神经元模型(1943年):沃伦·麦卡洛克与沃尔特·皮茨提出了包含循环连接的人工神经网络模型。
○ 麦克洛克坚持认为 “精神世界中的神秘工作及精神的失常,不过来源于大脑神经元的正常或失常反应而已,而这是纯机械式的”即精神世界也可以用函数来表示。
○ 沃伦·麦卡洛克与沃尔特·皮茨运用医学知识:“大脑中的每一个神经元细胞,只有当外部刺激超过最小阈值时,才被激发,否则就处于静默状态“,按照逻辑门电路的思想提出了 MP 人工神经网络模型,

局限性:因为是模拟电门逻辑,输出是固定的,要么 0 要么 1,这是一个硬性判断,描述的是一个确定性的事件,不能用来表达“不确定性”。
● 图灵测试(1950年):艾伦·图灵提出评估机器智能的标准,确立了自然语言理解与生成在智能评估中的核心地位。
人工智能学科的确立与神经网络初步发展
人工智能(AI)的诞生
● 术语定义(1955年):约翰·麦卡锡为保证学科中立性,正式命名该领域为“Artificial Intelligence”。
● 达特茅斯会议(1956年):麦卡锡、香农、明斯基等学者探讨了机器模拟智能的可能性,标志着人工智能作为独立学科正式诞生。
● 符号主义: 只要把世界表示成一堆符号,再写清楚规则,机器就能“思考”。 受到 MP 模型的启发,符号主义认为,把智能用一个数学模型表达出来,然后将这个数学模型中的符号全部求解出来就行了。符号主义在早期占据了很长一段时间统治力。

● 联结主义:在求解数学模型时,有的数据不论如何拟合,总是无法求出完美的结果,索性摆烂了,“猜+简化”。
线性:

如果数据本身不是线性可分的,怎么调 W,bW,bW,b 都没用。
以线性函数为例:将一个函数外面再套一层函数(激活函数),得到了一个新的线性函数,相当于给线性函数做了平移、缩放操作

如果换成非线性的 f(x)作为激活函数:
常用的非线性激活函数



不断套激活函数的过程就作为了神经网络中的隐藏层

下一篇,我们将学习拟合和损失函数。

浙公网安备 33010602011771号