大模型完整架构

后端模型：利用ollama平台模型

前端界面：利用streamlit框架搭建用户界面，streamlit是一个简单易用的python库

对话交互：用户通过strealit界面输入文本，聊天机器人基于模型对输入内容处理并恢复展示在界面上

模型调用：将前端用户的输入传递给模型，并将回复返回给前端界面

界面展示：streamlit提供简洁的界面包括输入框，发送按钮，对话展示区域

模型分类：

自然语言处理模型：

计算机视觉模型cv：

语音模型：

多模态模型：

大模型的核心就是：

Transformer架构 + 自注意力机制（理解关系）
海量数据预训练（学习语言规律）
任务微调（适配具体应用）
自回归生成（逐词输出）

而Decoder Only派系之所以成为主流，是因为它用最简单的机制（预测下一个词）实现了最强大的能力（理解+生成），在规模化后展现出惊人的涌现能力

大模型的核心运行机制基于深度学习，尤其是Transformer架构。其核心是自注意力机制，能够捕捉输入序列中不同部分的关系。模型通过预训练在大规模数据上学习语言规律，再通过微调适应特定任务。训练过程中，使用反向传播和优化算法（如Adam）调整数百万甚至数十亿的参数。依赖GPU/TPU等高性能硬件和分布式训练加速计算。输入文本经过分词与嵌入转换为向量表示，模型通过推理生成输出，并采用生成策略（如束搜索）确保输出质量。整个过程依赖大规模数据和计算资源，实现复杂的语言理解和生成能力

大模型的工作流程可以概括为以下几个关键环节:

1. 文本输入处理

输入的文本首先经过分词(Tokenization),将句子切分成更小的单元
然后转换为向量嵌入(Embedding),把文字变成模型能理解的数字表示

2. Transformer架构的核心 - 自注意力机制这是大模型的"大脑"。它能让模型理解句子中不同词语之间的关系。比如在"小明去学校,他很开心"这句话中,模型能知道"他"指的是"小明"。

3. 训练过程

预训练: 在海量文本数据上学习语言规律
微调: 针对特定任务进行优化
使用反向传播算法调整模型的数亿甚至数千亿参数

4. 推理生成模型处理输入后,通过生成策略(如束搜索、采样等)逐步生成输出文本。

posted @ 2025-12-09 20:12 光璃阅读(10) 评论(0) 收藏举报

刷新页面返回顶部

hbdgw

大模型完整架构

公告