大模型名词解释
硅基流动官网的模型分类
类型
对话 生图 嵌入 重排序 语音 视频
标签
视觉 Tools FIM Math Coder 图生图 可微调
- 类型描述模型的主要应用场景,如对话、生图等。
- 标签强调模型的附加功能或专长,如数学能力、支持工具调用等。
- 选择时可根据需求组合类型和标签(例如:选择“对话+可微调”模型来定制客服机器人)。
类型(应用场景)
-
对话
- 指专为自然语言交互设计的模型,能理解和生成连贯的对话(如聊天机器人、客服助手)。
- 例子:类似 ChatGPT 的模型,适用于问答、情感交流、任务指导等场景。
-
生图(Text-to-Image)
- 根据文本描述生成图像的模型,将文字转化为视觉内容。
- 例子:类似 Stable Diffusion、DALL-E,适用于艺术创作、广告设计等。
-
嵌入(Embedding)
- 将文本、图像等数据转化为高维向量,用于语义理解或相似性计算。
- 应用:搜索优化、推荐系统、聚类分析(如文档检索)。
-
语音
- 处理语音相关的任务,如语音识别(ASR)、语音合成(TTS)或语音对话。
- 例子:智能音箱、语音助手背后的模型。
-
视频
- 生成或分析视频内容,可能包括视频生成、剪辑、内容理解等。
- 应用:视频自动剪辑、动态内容生成(如广告视频)。
-
重排序(Reranking)
- 对搜索结果或推荐列表进行优化排序,提升结果相关性。
- 场景:搜索引擎、电商推荐中调整排序优先级。
标签(功能特性)
前六个都是对话模型的标签,或者叫 子类型
-
视觉(Vision)
- 模型具备图像或视频处理能力,如分类、分割、生成、理解。
- 例子:图像描述生成、视频内容分析。
-
Tools
- 支持调用外部工具或 API,增强模型功能(如联网搜索、计算器、数据库查询)。
- 场景:自动化工作流中结合外部工具完成任务。
-
FIM(Fill-in-Middle)
- 专为代码补全设计的模型,能填充代码段中间的缺失部分(而不仅是续写末尾)。
- 用途:提升开发者效率,适用于 IDE 的智能补全。
-
Math
- 擅长解决数学问题,包括符号计算、方程求解、定理证明等。
- 例子:解数学题、工程计算辅助。
-
Coder
- 面向代码生成、理解或调试的模型,支持多种编程语言。
- 应用:自动生成代码、代码注释、Bug 修复。
-
可微调(Fine-tunable)
- 允许用户用自有数据对模型进行微调,适配特定任务或领域。
- 场景:定制化需求(如医疗术语理解、垂直行业对话)。
-
图生图(Image-to-Image)
- 基于输入图像生成新图像,如风格迁移、图像修复、超分辨率等。
- 例子:将草图转化为渲染图,老照片修复。
DeepSeek各版本介绍
以下是关于 DeepSeek 系列模型及其相关术语的详细解释:
1. DeepSeek 系列模型的定位与核心架构
(1)DeepSeek-MoE
- 定义:混合专家模型(Mixture of Experts, MoE)是一种通过动态分配任务给不同“专家子网络”提升模型效率的架构。虽然搜索结果未直接提及 DeepSeek-MoE,但结合行业惯例推测,它可能是 DeepSeek 团队基于 MoE 架构优化的模型,旨在平衡计算资源与性能。
- 特点:MoE 架构通常通过稀疏激活减少计算量,适合处理多任务场景,但需要复杂的路由算法支持。
(2)DeepSeek-V3
- 定位:DeepSeek-V3 是 DeepSeek 团队在 2024 年 12 月发布的预训练基础模型,参数规模达 671B,专注于通用语言理解与生成任务。
- 应用场景:文本生成、问答、摘要等基础 NLP 任务,但未针对复杂推理进行优化。
- 重要性:为后续的 DeepSeek-R1 系列提供了基座模型支持。
(3)DeepSeek-R1
- 定位:DeepSeek-R1 是专门针对复杂推理任务设计的模型,擅长数学、编程、逻辑谜题等多步骤推理,性能对标 OpenAI 的 o1 系列。
- 技术路线:
- DeepSeek-R1-Zero:完全依赖强化学习(RL)训练,未使用监督微调(SFT),直接从基座模型(DeepSeek-V3)进化而来,展现了“自我反思”能力。
- DeepSeek-R1:在 R1-Zero 基础上引入少量高质量人工数据,通过两阶段强化学习和监督微调优化,提升可读性与多任务通用性。
- 优势:在数学竞赛(如 AIME 2024)和代码生成任务中表现接近人类专家水平。
2. 蒸馏模型(Distilled Models)
DeepSeek-R1-Distill-Qwen-7B
指的是运用知识蒸馏技术将DeepSeek-R1
的推理能力迁移到Qwen-7B
模型上所得到的新模型。
-
DeepSeek:表示开发这个模型的组织或团队。
-
R1:表示这是DeepSeek系列模型中使用强化学习(RL)来提升推理能力的第一个版本。
-
Distill:代表蒸馏,表明该模型是通过知识蒸馏技术得到的。蒸馏 就是 选择一个大型的教师模型(如DeepSeek-R1 671B)和一个较小的学生模型(Qwen-7B),然后通过特定的技术和算法,将教师模型的知识和推理能力转移到学生模型上所得到的新模型。
-
Qwen:这里就是以通义千问Qwen系列模型作为基础模型,利用它的架构和一些基础能力等。
-
7B:表示该模型具有70亿个参数。
DeepSeek-R1具有6710亿参数,有着强大的推理能力和广泛的知识覆盖,能够为蒸馏提供丰富的知识基础。而Qwen-7B作为学生模型,参数量相对小很多,在计算效率和内存占用上具有优势。通过知识蒸馏技术,将DeepSeek-R1的知识和推理能力迁移到Qwen-7B中,使Qwen-7B在保持较小规模的同时,尽可能学习到教师模型的能力,以实现更好的性能。
DeepSeek-R1的蒸馏模型,主要分为两类:
(1)DeepSeek-R1-Distill-Qwen 系列
- 基座模型:基于 Qwen 架构(如 Qwen-2.5 系列),通过微调 DeepSeek-R1 生成的推理数据实现能力迁移。
- 参数版本:1.5B、7B、14B、32B,适用于不同规模的推理任务:
- 1.5B:轻量级任务(文本分类、简单问答),适合移动端或低显存设备。
- 7B/14B:中等复杂度任务(对话系统、代码生成),性能接近部分中大规模闭源模型。
(2)DeepSeek-R1-Distill-Llama 系列
- 基座模型:基于 Llama 架构(如 Llama3.1-8B-Base),通过类似蒸馏方法优化推理能力。
- 参数版本:8B、70B,适用于高性能推理场景:
- 8B:适合单卡 GPU 部署,性能优于同规模通用模型。
- 70B:接近 R1-671B 的部分能力,但未经过强化学习训练,成本远低于原版。
蒸馏技术的局限性
- 蒸馏模型依赖大模型生成的数据,推理能力弱于原版 R1-671B,尤其在需要“涌现式思考”的任务中差距显著。
- 部分商家可能混淆蒸馏模型与满血版 R1,需通过复杂问题测试响应时间和答案质量辨别。
- 技术差异化:R1 依赖纯强化学习实现推理能力突破,蒸馏模型通过知识迁移降低成本,但需警惕性能差距。
ollama上的版本
ollama 上的 DeepSeek-R1 的 1.5B、7B、8B、14B、32B、70B 版本都是蒸馏版本
1.5B版本的模型 其实就是 DeepSeek-R1-Distill-Qwen-1.5B模型
开源与商业化
- DeepSeek-R1 及蒸馏模型均以 MIT 协议开源,允许商业使用和二次开发,与 OpenAI 的闭源策略形成对比。
大模型的1.5B 7B 8B 大小是什么意思?
在大模型领域,1.5B、7B、8B 等数字表示模型的参数量(Parameters),即模型中可学习的参数(权重)总数,通常用 B(Billion,十亿) 作为单位,所以1.5B是15亿参数,7B是70亿,8B是80亿。
参数量的意义
参数是模型从数据中学习的“知识”载体,参数越多,模型理论上能捕捉更复杂的模式,但同时也需要更多的计算资源和数据。以下是关键点:
1. 模型能力与参数量的关系
- 小参数量(1B~10B):
适合轻量级任务(如文本生成、简单问答),推理速度快,可在消费级 GPU 甚至 CPU 上运行。
例子:Meta 的 LLaMA-1(7B)、ChatGLM-6B(60 亿参数)。 - 中等参数量(10B~100B):
能力更强,可处理复杂逻辑(如数学推理、长文本生成),但需要专业 GPU(如 A100)支持。
例子:LLaMA-2(13B)、Falcon(40B)。 - 大参数量(100B+):
接近人类水平的泛化能力(如 GPT-4),但训练和推理成本极高,通常仅限企业级应用。
2. 资源消耗
- 训练成本:参数量越大,训练所需算力(GPU/TPU)和数据量呈指数级增长。
例如:训练 7B 模型需要数千 GPU 小时,而 175B 的 GPT-3 需数万小时。 - 推理成本:
- 7B 模型可在 16GB 显存的 GPU(如 RTX 3090)上运行。
- 70B 模型需要多卡或高端服务器级 GPU(如 A100 80GB)。
3. 性能边际效应
- 参数量增加会提升模型能力,但达到一定规模后边际收益递减。
例如:7B → 13B 提升显著,但 70B → 130B 的增益可能不如预期。
为什么用 7B、8B 等具体数字?
- 工程权衡:模型参数量通常通过调整层数(Layers)、注意力头数(Heads)、隐藏维度(Hidden Size)等设计得出。例如:
- LLaMA-7B:32 层,32 头,4096 隐藏维度 → 约 70 亿参数。
- 硬件适配:参数规模需匹配显存容量。例如:
- 7B 模型量化后可在手机端运行,8B 可能针对特定硬件优化。
如何选择模型大小?
参数量 | 适用场景 | 硬件需求 | 典型用途 |
---|---|---|---|
1B~3B | 移动端、边缘设备 | 手机/嵌入式设备 | 轻量问答、本地翻译 |
7B~13B | 个人开发者、中小型服务器 | 单卡 GPU(如 RTX 3090) | 复杂对话、代码生成 |
20B~70B | 企业级服务器、云计算 | 多卡 GPU/A100 | 专业领域推理(法律、医疗) |
100B+ | 超大规模商业应用 | 分布式计算集群 | 通用人工智能(如 GPT-4) |
-
选择建议:
- 资源有限 → 小模型(1B~7B) + 量化技术
- 追求性能 → 中等模型(7B~70B) + 专业 GPU
- 企业级需求 → 百亿级模型 + 云计算支持
-
1.5B 模型的适用场景:
- 轻量级任务:适合移动端或低配置设备运行(如简单问答、文本生成)。
- 快速推理:参数量小,响应速度更快,适合实时性要求高的场景。
- 资源受限环境:显存不足 8GB 的显卡可优先选择小参数模型。
需要注意的误区
- 参数量 ≠ 绝对性能:
模型架构(如 Transformer 优化)、训练数据质量、对齐方法(如 RLHF)同样重要。- 例如:7B 的 Mistral 模型可能优于某些 13B 的老旧架构模型。
- 量化与压缩:
通过量化(如 4-bit 压缩),大模型可降低显存占用,但会轻微损失精度。
大模型所涉及的软件
下载并部署大模型的软件
-
Ollama:一个本地化部署框架,专注于简化大模型的安装与运行(如 Llama、DeepSeek - R1、Mistral 等),支持通过命令行直接调用模型。
-
LM Studio:自带 UI 界面。
-
大模型与部署工具的关系
- DeepSeek:独立的大模型产品(如 DeepSeek - R1),由国内团队开发,以高性能和算法优化著称。
- 协作关系:Ollama 是部署工具,DeepSeek 是模型提供方。用户通过 Ollama 安装 DeepSeek - R1 后,可通过 ChatBox 或其他前端工具与其交互。Ollama 专注于模型部署,而 DeepSeek 是可通过 Ollama 安装的模型之一。
AI 客户端
客户端的作用
- 用户体验优化:Ollama 依赖命令行操作,而 ChatBox 提供图形化界面,简化交互流程,提升操作效率。
- 多模型集成:支持连接多种大语言模型(如 OpenAI GPT、Claude、DeepSeek、本地部署的 Llama2/Mistral 等),用户可灵活切换模型以适应不同任务需求。
- 功能增强:提供 Prompt 调试、历史记录管理、数据安全等 Ollama 不具备的特性。
- 高级功能扩展:支持图像生成(如 DALL - E - 3)、文档交互、联网搜索等,覆盖办公、开发、创意等场景。
一些客户端软件
- 桌面客户端
- ChatBox 桌面客户端:免费开源项目,功能相对单一,简单易用,适合快速上手。
- Cherry Studio 桌面客户端:免费开源项目,功能丰富,支持多模型。
- Web 部署客户端
- OpenWebUI:一般需要 docker 部署。
- 浏览器插件
- page assist 浏览器插件:可以提供大模型的 webUI 界面。
- 收费客户端
- CloseChat 和 LobeChat:部分功能需收费,但有丰富的插件市场,而且可以进行联网查询。
vscode 集成大模型的插件
- Continue 插件
- cline 插件 或者 Roo Code 插件
大模型安装流程
- 通过 Ollama 安装模型(如
ollama run deepseek - r1:7b
)。 - 在 ChatBox 中配置 Ollama 的本地 API 地址,选择已安装的模型。
- 通过 ChatBox 的界面与模型交互,利用其高级功能(如 Prompt 优化、多模型切换)。
什么是token
大模型处理输入文字的过程可以分为以下几个步骤:
-
分词:大模型首先通过分词器将输入的文字切割成token。这些token可以是单个汉字、词语、短语、标点符号或单词词缀。分词器会根据其规则将文字切分成最小单位(token),并为每个token分配一个编号。
-
转换为token序列:分词器将切分后的token转换为一个token序列,每个token对应一个唯一的编号。这些编号存储在token表中,便于后续处理。
-
输入模型:将token序列输入到大模型中。大模型的核心是参数和拟合方法,这些参数是通过大量数据训练得到的,能够捕捉复杂的分布规律。
-
计算与预测:大模型根据输入的token序列和训练得到的参数进行计算,预测下一个token或生成相应的输出。这个过程类似于根据已知的坐标计算A和B的值,然后使用这些值来预测新的坐标。
-
生成输出:模型根据计算结果生成输出token序列,然后通过分词器将这些token转换回可读的文字。
-
输出结果:最终,大模型将生成的文字输出给用户,完成整个处理过程。
总结来说,大模型处理输入文字的过程包括分词、转换为token序列、输入模型、计算与预测、生成输出以及输出结果。这个过程依赖于分词器和模型的参数,能够高效地理解和生成文字。
可以总结出以下关于token的关键点:
-
定义:Token是大模型处理文本的最小单位,类似于积木,用于帮助大模型理解和生成文字。它可以是单个汉字、词语、短语、标点符号或单词词缀。
-
分词器的作用:分词器将输入的文字切割成token,每个token对应一个编号,存储在token表中。不同的分词器有不同的分词方法和结果。
-
计算与成本:Token的数量直接对应了背后的计算量,因此大模型公司通常按照token的数量来计费。处理长文本所需的算力远高于短文本,按token计费能更公平地量化不同长度文本的实际成本。
-
收费模式:大模型的收费通常包括输入和输出的token数量。例如,输入1k token + 输出2k token = 总费用3k token。这种计费方式更加精准和透明。
-
与传统API收费的区别:传统API通常按次收费,而大模型按token收费能更好地反映实际资源消耗,尤其是对于动态生成的内容。
总结来说,token是大模型处理文本的基本单位,其数量直接影响计算成本和收费。按token计费的方式更加公平和透明,能够精准反映资源使用情况。
传统收费方式:
①订阅收费,比如SaaS类
按 月/年 付费,无论实际使用量是多少
一般都是固定费用
②按计算资源收费,比如云计算类
按消耗多少计算资源(CPU/GPU/TPU)收费
按数据存储容量(GB/TB)收费
按带宽传输量(GB / TB)收费
③按功能解锁收费,解锁一个功能收多少钱
比如:解锁安全功能、解决XXX高级功能等
有的也分基础版、高级版等
输入 1k tokens + 输出 2k tokens = 按 3k tokens 计费
虽然,DeepSeek也是通过API调用,但这只是技术方式,而不是收费方式
什么是参数
大模型参数是模型通过训练学习到的权重和偏置,用于捕捉数据中的复杂规律。具体来说:
-
权重(Weights):权重是模型中的可调节参数,用于表示输入特征对输出的影响程度。在神经网络中,权重连接不同层的神经元,决定信号传递的强度。
-
偏置(Biases):偏置是模型中的另一个可调节参数,用于调整神经元的激活阈值。它帮助模型更好地拟合数据,尤其是在输入特征为零时。
-
训练过程:在训练过程中,模型通过大量数据调整这些参数,以最小化预测误差。常用的优化算法如梯度下降法,通过计算损失函数的梯度来更新参数。
-
参数规模:大模型的参数规模通常非常庞大,例如GPT-3有1750亿个参数。这些参数共同作用,使模型能够捕捉复杂的语言模式和上下文关系。
-
作用:参数决定了模型的行为和性能。通过调整参数,模型能够学习到数据中的规律,从而在预测或生成任务中表现出色。
总结来说,大模型参数是模型通过训练学习到的权重和偏置,用于捕捉数据中的复杂规律,并决定模型的预测和生成能力。
以下是一个例子:
任务:生成一句完整的句子,输入为“今天天气”。
过程:
- 分词:模型将输入“今天天气”切分为token,例如["今天", "天气"]。
- 转换为token序列:将token转换为编号序列,例如[101, 102]。
- 输入模型:将token序列输入GPT模型。
- 参数作用:
- 权重:
- 权重是模型通过学习数据得到的参数,用于计算每个token对下一个token预测的影响。
- 例如,在输入“今天天气”后,模型会根据权重计算下一个token的概率分布,如“晴朗”的概率为0.7,“阴天”的概率为0.3。
- 权重决定了模型如何根据上下文选择下一个token。
- 偏置:
- 偏置是模型中的一个常数项,用于调整神经元的激活阈值,使模型在特定上下文中选择更合适的词。
- 例如,偏置可能会调整模型在特定上下文中更倾向于选择“晴朗”而不是“阴天”。
- 计算与预测:模型根据参数计算下一个token的概率分布,例如“晴朗”的概率为0.6,“阴天”的概率为0.3,“下雨”的概率为0.1。
- 生成输出:模型选择概率最高的token“晴朗”,并将其添加到输出序列中。
- 输出结果:最终生成句子“今天天气晴朗”。
总结:
在这个例子中,大模型参数(权重和偏置)决定了模型如何根据输入token预测下一个token。通过调整这些参数,模型能够学习到语言中的规律,从而生成符合语境的句子。
用Excel表格复刻GPT-2 https://github.com/jiyuchen1/excel-gpt2
模型的量化与泛化
1. 模型量化(Quantization)
定义:
模型量化是指将模型中的参数(如权重和偏置)从高精度(例如32位浮点数,FP32)转换为低精度(例如8位整数,INT8)的过程。这一过程可以显著减少模型的存储空间和计算资源需求,同时保持模型性能。
目的:
- 减少存储空间: 低精度数据类型占用更少的内存。
- 加速推理: 低精度运算通常更快,尤其是在硬件支持的情况下。
- 降低功耗: 减少计算资源的需求,从而降低能耗。
挑战:
- 精度损失: 量化可能导致模型性能下降,因此需要仔细调整以确保精度损失在可接受范围内。
- 训练后量化 vs 量化感知训练: 训练后量化直接对预训练模型进行量化,而量化感知训练则在训练过程中引入量化操作,以更好地适应低精度环境。
2. 模型泛化(Generalization)
定义:
模型泛化是指模型在未见过的数据上的表现能力。一个具有良好泛化能力的模型能够在训练集之外的新数据上依然保持较高的准确性和稳定性。
目的:
- 防止过拟合: 过拟合是指模型在训练集上表现很好,但在测试集或新数据上表现不佳。良好的泛化能力可以避免这种情况。
- 提高鲁棒性: 泛化能力强的模型能够更好地应对数据分布的变化,具有更高的鲁棒性。
方法:
- 正则化: 通过添加正则项(如L2正则化)来限制模型复杂度,防止过拟合。
- 数据增强: 增加训练数据的多样性,使模型学习到更多不同的特征。
- 交叉验证: 使用交叉验证评估模型性能,确保模型在不同子集上的表现一致。
- 早停法(Early Stopping): 在验证集上监控模型性能,当性能不再提升时提前停止训练。
总结
- 量化 主要关注如何在减少计算资源和存储空间的同时,尽量保持模型性能。
- 泛化 则是确保模型不仅在训练数据上表现良好,还能在新数据上保持高性能,避免过拟合。
两者都是大模型优化和部署中非常重要的概念,对于实际应用中的效率和效果有着关键影响。