大模型
大模型定义
大模型通常指的是大规模人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理处理胜场多种类型数据的人工智能模型。通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高。大模型的设计和训练旨在提供更强大、更准确的模型性能,以应对更复杂、更庞大的数据集或任务。
大模型分类

大语言模型的基本原理
随着深度学习技术的飞速发展,大语言模型(Large Language Models, LLMs)自然语言处理(NLP)领域取得了前所未有的突破,LLM是近年来人工智能领域的一项重要突破,它能够理解和生成人类语言,甚至完成复杂的任务。

- 应用场景
生成与推理:大语言模型不仅仅是简单地“鹦鹉学舌”,它还能够生成新的内容并进行简单的推理。
文本生成:模型可以根据输入的内容生成连贯的文本。比如,输入“写一篇关于春天的作文”,模型可以生成一篇完整的文章。
逻辑推理:模型可以进行简单的逻辑推理。比如,输入“如果所有的猫都会飞,而汤姆是一只猫,那么汤姆会飞吗?”,模型可以推理出“汤姆会飞”。
- 技术原理
1.通过“阅读”大量文本数据学习语言规律。
2.使用Transformer架构处理和理解语言。
3.通过“猜词游戏”不断优化自己的预测。
4.利用微调从“通才”到“专才”,适应各种具体任务。
5.不仅能生成文本,还能进行简单推理。
6.模型原始文本数据越多规模越大,能力越强。
- 核心思想
模仿人类学习语言的过程,大语言模型的核心目标是模仿人类学习语言的方式。就像小孩子通过听大人说话、看书、交流来学习语言一样,大语言模型通过“阅读”大量的文本数据(如书籍、文章、网页等)来学习语言的规律。
大语言模型常见训练框架
| 推理框架 | 技术核心/亮点 | 适用场景 | 优势 | 局限 |
|---|---|---|---|---|
| Ollama | 基于lama.cpp封装跨平台支持、内置1700+模型、int4量化 | 个人开发者创意验证学生辅助学习、日常问答创意写作等个人轻量级应用场景 | 安装便捷、易上手、低硬件要求、数据离线保障 | 并发处理能力较弱,扩展。性和插件定制能力有限 |
| SGLang | RadixAttention、高效缓存、结构化输出、轻量模块化架构 | 企业级推理服务、高并发场景、需要结构化输出的应用 | 超高吞吐量、极低响应延緘佶迟、适合高并发结构化查询 | 目前仅支持Linux、对多模态任务支持能力有限 |
| VLLM | PagedAttention、动态批处理、异步调度、多GPU分布式 | 大规模在线推理服务高并发场景 | 高并发、低延迟,适合大规模在线服务 | 依赖高端GPU、代码复杂,二次开发门槛较时 |
| llama.cpp | 纯CPU推理、轻量级设计、开源社区支持 | 边缘设备部署、移动端应用、本地服务 | 零硬件门槛、低成本、适合边缘和嵌入式设备 | 推理速度较慢,高并发能力有限 |
大模型训练中Token的作用
1、 Token的基本原理
Token是自然语言处理中的基本单位,大模型通过将文本分解成一系列的Token来接收和处理输入。这些Token可以是单词、子词或字符,具体取决于模型使用的分词器。每个Token都会被转换成一个向量表示,这个向量包含了Token的语义信息,使得模型能够理解文本内容。
一条语句由诸多单词(Word)所组成,大模型在进行处理前需要先将语句拆解成一个个的基础单元,但这个基础单元并非单词,而被称为"Token”,一个Token大概对应0.75个单词。为了简化理解,我们姑且把一个单词就看成一个 Token.以 "We go to work by train" 这句为例, 可以将其分成6 个Token:
We go to work by train
一条语句可以拆分成许多的Token
2、预训练样本Token化
在正式预训练之前,这些训练数据集需要先进行 Tokenization预处理,将语料转化成 Token的表示方式。简单来说,就是将语料文本序列转换成一个内部向量,转换算法也有多种方式。

大模型中参数
DeepSeek爆火之后,经常听到"参数” 、8b、14b、32b、70b和671,"GPT.3有1750亿参数”"DeepSeek-V3含6710亿参数”,“参数"以及这些天文数字具体是啥意思?
1、参数是什么?
参数是指模型在训练过程中学习到的可调节变量,主要包括权重(Weights)和偏置(Biases)。这些参数决定了模型如何处理输入数据并生成输出,是模型性能的核心组成部分
2、当看到“7B”“175B”时,这单位B是什么意思?
这里的字母B代表十亿(Bilion)),就像用"亿"来统计人口!

大模型的生成
大模型技术是基于Transformer模型的自然语言处理模型,模型生成可以分为两个阶段:预训练和微调

大模型资产
1、数据集
2、模型
3、算法

浙公网安备 33010602011771号