大模型完整架构

后端模型:利用ollama平台模型

前端界面:利用streamlit框架搭建用户界面,streamlit是一个简单易用的python库

对话交互:用户通过strealit界面输入文本,聊天机器人基于模型对输入内容处理并恢复展示在界面上

模型调用:将前端用户的输入传递给模型,并将回复返回给前端界面

界面展示:streamlit提供简洁的界面  包括输入框,发送按钮,对话展示区域

 

模型分类:

自然语言处理模型:

计算机视觉模型cv:

语音模型:

多模态模型:

 

大模型的核心就是:

  1. Transformer架构 + 自注意力机制(理解关系)

  2. 海量数据预训练(学习语言规律)

  3. 任务微调(适配具体应用)

  4. 自回归生成(逐词输出)

而Decoder Only派系之所以成为主流,是因为它用最简单的机制(预测下一个词)实现了最强大的能力(理解+生成),在规模化后展现出惊人的涌现能力

 

 

 

 

大模型的核心运行机制基于深度学习,尤其是Transformer架构。其核心是自注意力机制,能够捕捉输入序列中不同部分的关系。模型通过预训练在大规模数据上学习语言规律,再通过微调适应特定任务。训练过程中,使用反向传播和优化算法(如Adam)调整数百万甚至数十亿的参数。依赖GPU/TPU等高性能硬件和分布式训练加速计算。输入文本经过分词与嵌入转换为向量表示,模型通过推理生成输出,并采用生成策略(如束搜索)确保输出质量。整个过程依赖大规模数据和计算资源,实现复杂的语言理解和生成能力

 

大模型的工作流程可以概括为以下几个关键环节:

1. 文本输入处理

  • 输入的文本首先经过分词(Tokenization),将句子切分成更小的单元

  • 然后转换为向量嵌入(Embedding),把文字变成模型能理解的数字表示

2. Transformer架构的核心 - 自注意力机制 这是大模型的"大脑"。它能让模型理解句子中不同词语之间的关系。比如在"小明去学校,他很开心"这句话中,模型能知道"他"指的是"小明"。

3. 训练过程

  • 预训练: 在海量文本数据上学习语言规律

  • 微调: 针对特定任务进行优化

  • 使用反向传播算法调整模型的数亿甚至数千亿参数

4. 推理生成 模型处理输入后,通过生成策略(如束搜索、采样等)逐步生成输出文本。

 

posted @ 2025-12-09 20:12  光璃  阅读(3)  评论(0)    收藏  举报