大模型

大模型定义

大模型通常指的是大规模人工智能模型，是一种基于深度学习技术，具有海量参数、强大的学习能力和泛化能力，能够处理处理胜场多种类型数据的人工智能模型。通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高。大模型的设计和训练旨在提供更强大、更准确的模型性能，以应对更复杂、更庞大的数据集或任务。

大模型分类

大语言模型的基本原理

随着深度学习技术的飞速发展，大语言模型(Large Language Models, LLMs)自然语言处理(NLP)领域取得了前所未有的突破，LLM是近年来人工智能领域的一项重要突破，它能够理解和生成人类语言，甚至完成复杂的任务。

应用场景

生成与推理:大语言模型不仅仅是简单地“鹦鹉学舌”，它还能够生成新的内容并进行简单的推理。
文本生成:模型可以根据输入的内容生成连贯的文本。比如，输入“写一篇关于春天的作文”，模型可以生成一篇完整的文章。
逻辑推理:模型可以进行简单的逻辑推理。比如，输入“如果所有的猫都会飞，而汤姆是一只猫，那么汤姆会飞吗?”，模型可以推理出“汤姆会飞”。

技术原理

1.通过“阅读”大量文本数据学习语言规律。
2.使用Transformer架构处理和理解语言。
3.通过“猜词游戏”不断优化自己的预测。
4.利用微调从“通才”到“专才”，适应各种具体任务。
5.不仅能生成文本，还能进行简单推理。
6.模型原始文本数据越多规模越大，能力越强。

核心思想

模仿人类学习语言的过程，大语言模型的核心目标是模仿人类学习语言的方式。就像小孩子通过听大人说话、看书、交流来学习语言一样，大语言模型通过“阅读”大量的文本数据(如书籍、文章、网页等)来学习语言的规律。

大语言模型常见训练框架

推理框架	技术核心/亮点	适用场景	优势	局限
Ollama	基于lama.cpp封装跨平台支持、内置1700+模型、int4量化	个人开发者创意验证学生辅助学习、日常问答创意写作等个人轻量级应用场景	安装便捷、易上手、低硬件要求、数据离线保障	并发处理能力较弱，扩展。性和插件定制能力有限
SGLang	RadixAttention、高效缓存、结构化输出、轻量模块化架构	企业级推理服务、高并发场景、需要结构化输出的应用	超高吞吐量、极低响应延緘佶迟、适合高并发结构化查询	目前仅支持Linux、对多模态任务支持能力有限
VLLM	PagedAttention、动态批处理、异步调度、多GPU分布式	大规模在线推理服务高并发场景	高并发、低延迟，适合大规模在线服务	依赖高端GPU、代码复杂，二次开发门槛较时
llama.cpp	纯CPU推理、轻量级设计、开源社区支持	边缘设备部署、移动端应用、本地服务	零硬件门槛、低成本、适合边缘和嵌入式设备	推理速度较慢，高并发能力有限

大模型训练中Token的作用

1、 Token的基本原理

Token是自然语言处理中的基本单位，大模型通过将文本分解成一系列的Token来接收和处理输入。这些Token可以是单词、子词或字符，具体取决于模型使用的分词器。每个Token都会被转换成一个向量表示，这个向量包含了Token的语义信息，使得模型能够理解文本内容。

一条语句由诸多单词(Word)所组成，大模型在进行处理前需要先将语句拆解成一个个的基础单元，但这个基础单元并非单词，而被称为"Token”，一个Token大概对应0.75个单词。为了简化理解，我们姑且把一个单词就看成一个 Token.以 "We go to work by train" 这句为例, 可以将其分成6 个Token:
We go to work by train
一条语句可以拆分成许多的Token

2、预训练样本Token化

在正式预训练之前，这些训练数据集需要先进行 Tokenization预处理，将语料转化成 Token的表示方式。简单来说，就是将语料文本序列转换成一个内部向量，转换算法也有多种方式。