术语通解 --- LLM是什么

llm大语言模型是ai的一个主要分支，它没有从语言学的角度出发处理文字，而是基于统计学方法处理文本数据，它本质就是一个巨大的互联网数据压缩有的字典我们叫ai的模型，每个字就是一个token，给个token带有目录使得可以被索引，这个索引的方法我们组成完整的一句话，这个过程自回归语言建模
Tokenization (分词/令牌化)： 这是将文本（一句话、一段话）分解成更小单元（token）的过程。这些单元可以是单词、子词（subwords）、字符甚至标点符号。这就像查字典前先要把句子拆分成一个个“字”或“词”。
Vocabulary (词汇表)： 这是模型认识的所有可能的 token 的集合。它本质上就是那个巨大的“字典”或“目录”。每个唯一的 token 在这个词汇表中都有一个固定的位置。
Token ID (令牌ID) / Vocabulary Index (词汇表索引)： 这就是你所说的“索引”的专业术语！ 在词汇表中，每个唯一的 token 都被分配一个唯一的整数编号。这个编号就是 Token ID 或 Vocabulary Index。
例如，词汇表可能包含：
“the” -> ID 5
“cat” -> ID 10
“sat” -> ID 20
“on” -> ID 30
“mat” -> ID 40
“.” -> ID 1
“[UNK]” (未知词) -> ID 100
... (可能有几万到几十万个条目)
整个过程如何工作（组成一句话）：
输入文本： 用户输入一句话，比如 “The cat sat.”。
Tokenization： 模型的分词器将这个句子分解成 tokens: [“The”, “cat”, “sat”, “.”] (假设这里按单词分词)。
Mapping to IDs (索引查找)： 模型在它的 Vocabulary 中查找每个 token 对应的 Token ID (Vocabulary Index)：
“The” -> ID 5 (注意：模型词汇表里可能只有小写 “the”，所以 “The” 可能被映射到 “the” 的 ID 5，或者处理成特殊 ID)
“cat” -> ID 10
“sat” -> ID 20
“.” -> ID 1
模型输入： 模型实际接收到的输入不是单词本身，而是这串数字序列： [5, 10, 20, 1]。这个数字序列代表了输入句子的含义。
模型处理 (理解)： LLM 的核心（神经网络）处理这个数字序列。它内部复杂的数学运算（注意力机制、矩阵变换等）本质上是在处理这些 token ID 所代表的信息以及它们之间的关系（位置）。
模型输出 (生成)：
理解任务 (如分类、问答)： 模型基于处理后的数字序列表示，输出任务结果（如情感标签、答案文本）。
生成任务 (如续写、翻译)： 模型预测下一个最可能的 token ID。它从词汇表中所有可能的 ID 中选择一个（例如，预测 “on” 的 ID 30）。然后，它将这个新 ID (30) 加入到输入序列末尾，再次进行处理，预测下一个 ID (可能预测 “the” 的 ID 5)，如此循环。
Mapping IDs to Tokens (反索引)： 当模型需要输出文本时（比如在生成任务中预测了一个 ID），它会将预测出的 Token ID 反向查找回 Vocabulary，找到对应的 token 字符串。
例如，模型预测了 ID 30 -> “on”
接着预测 ID 5 -> “the”
接着预测 ID 40 -> “mat”
接着预测 ID 1 -> “.”
组成输出文本： 将这一系列预测出的 token 字符串拼接起来： “on the mat.”，最终得到完整的输出句子 “The cat sat on the mat.”。
总结关键术语：
Tokenization (分词/令牌化)： 把文本拆成 token 的过程。
Token： 文本拆解后的基本单元。
Vocabulary (词汇表)： 模型认识的所有 token 的集合（“字典”）。
Token ID / Vocabulary Index (令牌ID / 词汇表索引)： 这就是你问的“索引”的专业术语。 它是词汇表中每个 token 对应的唯一整数编号。模型内部处理、存储和传递信息都是基于这些 ID。
Embedding Lookup (嵌入查找)： 模型在处理 token ID 序列时，第一步通常是查找每个 ID 对应的 Embedding Vector (嵌入向量)。这是一个稠密的浮点数向量，在模型的“理解”中代表该 token 的语义和语法信息。这个过程是将离散的 ID 映射到连续向量空间的关键步骤（虽然你主要问的是索引，但这是 ID 被使用的重要一步）。
所以，你描述的“带有目录（词汇表）、可以被索引（分配 Token ID / Vocabulary Index）、用来组成完整一句话”的核心机制，其关键的专业术语就是 Token ID 或 Vocabulary Index。这是模型理解和生成语言的基础数字表示。
 
posted on 2025-06-20 08:34 GKLBB 阅读(59) 评论(0) 收藏举报
刷新页面返回顶部
GKLBB

导航

术语通解 --- LLM是什么