大模型含义和意义

大模型含义和意义

大模型到底是啥chatGPT、deepseek、豆包、腾讯元宝 -->大模型的应用大模型->大语言模型(LLM)关键词:大-->参数规模比较大、训练数据量多作用:生成内容(文本、图片、声音、视频),文本分析和理解,图形图像识别,智能推荐应用领域:金融:风险评估、智能顾投、欺诈检测医疗:辅助诊断、药物研发、医学影像分析教育:个性化学习、智能批改、虚拟教师农业:作物检测、病虫害预警、精准灌溉制造业:质量控制、预测性维护、供应链优化法律:合同审查、案例检索零售:客户画像、动态定价交通:自动驾驶、交通调度能源:电网优化、故障预警媒体:内容生成、版权保护科研:文献挖掘、实验模拟大模型存在的意义全球新一轮生产力革命,一个时代的象征重构商业生态与竞争格局催生新型商业模式(教育、电商)优化传统行业效率(制造业、农业)普惠化和资源公平分配教育公平文化传承(降低跨文明交流)迈向通用人工智能(AGI)时代基石大模型参数参数单位:B,billion(十亿)
 
参数是什么?大模型参数是通过海量数据训练得到的内部数值。用于存储只是关联并决定模型处理信息的方式例子1:类比图书馆藏书:参数数量=书架容量,参数值=书的内容例子2:厨师调料柜:每个调料罐的种类、配比和添加顺序共同决定了最终菜品的风味和口感,调料数量对应参数规模,搭配规则对应参数间的关联关系主流模型的量级
模型名称
开发公司
参数量级
GPT-4
OpenAI
约1万亿(1T)
Grok-3
xAI
5000亿~1万亿(500B~1T)
Claude 3.7 sonnet
Anthropic
3000亿~5000亿(300B~500B)
Gemini 2.0 Pro
Google DeepMind
4000亿~6000亿(400B~600B)
Deepseek V3/R1
DeepSeek AI
6710亿(671B)
豆包
ByteDance
约3000亿(300B)
Kimi
Moonshot AI
约5000亿(500B)
通义千问 2.5
Alibaba
3250亿~4000亿(325B~400B)
大模型底层核心原理-Transformer+自注意力机制Transformer解决了什么问题 传统模型(RNN/LSTM)痛点:无法并行处理、长距离倚赖失效、上下文理解局限举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会有信息丢失Transformer突破:通过自注意力机制并行处理所有词,捕捉全局上下文、引入位置编码保留词序信息,替代RNN时序处理举例:所有人加入电话会议,不存在信息丢失,大家可以互相讨论、互通有无
问题
RNN(传话游戏)
Transformer (电话会议)
长距离依赖失效
信息经多人传递后丢失关键细节
所有参与者直接访问原始信息
上下文理解局限
只能基于前一个人的片面信息猜测
全局视角动态关联所有信息
并行处理
必须逐人传递,速度慢
所有人同事沟通,效率高
注意力机制 Transformer中的注意力机制(特别是自注意力机制)是其核心组成部分,能够有效捕捉序列中元素之间的长距离依赖关系。注意力机制通过动态计算序列中每个元素与其他元素的关联程度(权重),从而确定在特定任务中哪些信息需要重点关注。这种机制使模型能够:并行处理序列:避免RNN的逐步计算瓶颈。捕捉全局依赖:直接建模任意两个位置的关系,无论距离远近。动态聚焦关键信息:根据上下文动态调整权重,而非依赖固定模式。Transformer核心架构:编码器(Encoder)和解码器(Decoder)
 
实例:输入 "The cat sat on eht mat" -> 输出:"猫坐在垫子上"输入阶段:词嵌入将每个单词转换为512维向量,例如:位置编码使用正弦和余弦函数生成位置信息,目的是让模型感知单词的顺序,同时支持更长的序列推理编码器层多头自注意力生成Q,K,V输入向量通过线性变换生成Query(Q),Key(K),Value(V),每个头的维度为64(总维度512= 8头 × 64)公式
Q=xWQ,K=xWK,V=xWV
例如:对"cat"的输入向量:‘
xcatR1×512
 
 
1
2
3
 
Q_cat = x_cat_with_pos @ w_Q #维度:(1,64)
K_cat = x_cat_with_pos @ w_K #维度:(1,64)
V_cat = x_cat_with_pos @ w_V #维度:(1,64)
 
 
以"cat"为例:计算其Q与其他单词的K的点积,得到注意力分数。分数经过Softmax归一化,例如:cat 对sat 的注意力权重较高(0.8),对The 较低(0.1)。加权求和V向量,得到新的表示,包含上下文信息。公式:
Attention(Q,K,V)=softmax(dkQKT)V
残差链接与层归一化(Add& Norm)残差连接:将子层(如自注意力或FFN)的输入直接与输出相加,保留原始信息,缓解梯度消失问题。它就像“传送带”,直接传递原料(原始信息),避免加工(子层处理)中的损耗。
Output=LayerNorm(X+Attention(X))
层归一化:对残差连接后的结果进行层归一化,调整数据分布,稳定训练过程,加速收敛。归一化就像是‘质检员”,确保每道工序的输出规格统一。前馈神经网(Feed Forward Network,FFN)FFN通过两层线性变换(中间夹非线性激活函数,如ReLU)对特征进行非线性映射。它就像是“精加工车间",对初步处理后的半成品进行深度塑形,提升成品质量。两层全连接层,激活函数为ReLU:
FFN(x)=max(0,xW1+b1)W2+b2
输出维度保持512,与输入一致再次残差连接与层归一化(Add&Norm)重复残差和归一化操作,最终输出编码后的矩阵C,包含全局语义信息解码器层(Decoder)输入层 (Output Embedding + Positional Encoding)输入为目标序列的右移版本(如翻译任务中的 <SOS>猫坐在...),同样添加位置编码掩码多头自注意力(Masked Multi-Head Self-Attention)掩码(Mask):防止当前位置关注未来词。例如,生成第3个词时,只能关注前2个词,通过上三角矩阵屏蔽后续位置计算方式与Encoder的自注意力相同,但增加掩码操作:
MaskedAttention(Q,K,V)=softmaxdkQKT+MV
其中M为掩码矩阵作用:处理目标序列的自注意力,确保当前位置仅关注已生成的序列部分(防止信息泄露)编码器-解码器注意力(Encoder-Decoder Attention)Q来自Decoder,K和V来自Encoder 的输出C例如,生成中文"猫"时,Decoder的Q会聚焦于Encoder中cat的编码向量将Encoder的输出(Key/Value)与Decoder当前状态(Query)对齐,捕捉源序列与目标序列的关联,计算方式与自注意力相同。前馈神经网络与残差连接结构与Encoder相同,通过两次残差连接和层归一化,生成最终解码结果
posted @ 2026-03-08 16:36  牛粪也香  阅读(1)  评论(0)    收藏  举报