GKLBB

当你经历了暴风雨,你也就成为了暴风雨

导航

术语通解 --- LLM是什么

llm大语言模型是ai的一个主要分支,它没有从语言学的角度出发处理文字,而是基于统计学方法处理文本数据,它本质就是一个巨大的互联网数据压缩有的字典我们叫ai的模型,每个字就是一个token,给个token带有目录使得可以被索引,这个索引的方法我们组成完整的一句话,这个过程自回归语言建模

  1. Tokenization (分词/令牌化): 这是将文本(一句话、一段话)分解成更小单元(token)的过程。这些单元可以是单词、子词(subwords)、字符甚至标点符号。这就像查字典前先要把句子拆分成一个个“字”或“词”。
  2. Vocabulary (词汇表): 这是模型认识的所有可能的 token 的集合。它本质上就是那个巨大的“字典”或“目录”。每个唯一的 token 在这个词汇表中都有一个固定的位置。
  3. Token ID (令牌ID) / Vocabulary Index (词汇表索引): 这就是你所说的“索引”的专业术语! 在词汇表中,每个唯一的 token 都被分配一个唯一的整数编号。这个编号就是 Token ID 或 Vocabulary Index。
  • 例如,词汇表可能包含:
  • “the” -> ID 5
  • “cat” -> ID 10
  • “sat” -> ID 20
  • “on” -> ID 30
  • “mat” -> ID 40
  • “.” -> ID 1
  • “[UNK]” (未知词) -> ID 100
  • ... (可能有几万到几十万个条目)

整个过程如何工作(组成一句话):

  1. 输入文本: 用户输入一句话,比如 “The cat sat.”
  2. Tokenization: 模型的分词器将这个句子分解成 tokens: [“The”, “cat”, “sat”, “.”] (假设这里按单词分词)。
  3. Mapping to IDs (索引查找): 模型在它的 Vocabulary 中查找每个 token 对应的 Token ID (Vocabulary Index)
  • “The” -> ID 5 (注意:模型词汇表里可能只有小写 “the”,所以 “The” 可能被映射到 “the” 的 ID 5,或者处理成特殊 ID)
  • “cat” -> ID 10
  • “sat” -> ID 20
  • “.” -> ID 1
  1. 模型输入: 模型实际接收到的输入不是单词本身,而是这串数字序列: [5, 10, 20, 1]。这个数字序列代表了输入句子的含义。
  2. 模型处理 (理解): LLM 的核心(神经网络)处理这个数字序列。它内部复杂的数学运算(注意力机制、矩阵变换等)本质上是在处理这些 token ID 所代表的信息以及它们之间的关系(位置)。
  3. 模型输出 (生成):
  • 理解任务 (如分类、问答): 模型基于处理后的数字序列表示,输出任务结果(如情感标签、答案文本)。
  • 生成任务 (如续写、翻译): 模型预测下一个最可能的 token ID。它从词汇表中所有可能的 ID 中选择一个(例如,预测 “on” 的 ID 30)。然后,它将这个新 ID (30) 加入到输入序列末尾,再次进行处理,预测下一个 ID (可能预测 “the” 的 ID 5),如此循环。
  1. Mapping IDs to Tokens (反索引): 当模型需要输出文本时(比如在生成任务中预测了一个 ID),它会将预测出的 Token ID 反向查找回 Vocabulary,找到对应的 token 字符串。
  • 例如,模型预测了 ID 30 -> “on”
  • 接着预测 ID 5 -> “the”
  • 接着预测 ID 40 -> “mat”
  • 接着预测 ID 1 -> “.”
  1. 组成输出文本: 将这一系列预测出的 token 字符串拼接起来: “on the mat.”,最终得到完整的输出句子 “The cat sat on the mat.”

总结关键术语:

  • Tokenization (分词/令牌化): 把文本拆成 token 的过程。
  • Token: 文本拆解后的基本单元。
  • Vocabulary (词汇表): 模型认识的所有 token 的集合(“字典”)。
  • Token ID / Vocabulary Index (令牌ID / 词汇表索引): 这就是你问的“索引”的专业术语。 它是词汇表中每个 token 对应的唯一整数编号。模型内部处理、存储和传递信息都是基于这些 ID。
  • Embedding Lookup (嵌入查找): 模型在处理 token ID 序列时,第一步通常是查找每个 ID 对应的 Embedding Vector (嵌入向量)。这是一个稠密的浮点数向量,在模型的“理解”中代表该 token 的语义和语法信息。这个过程是将离散的 ID 映射到连续向量空间的关键步骤(虽然你主要问的是索引,但这是 ID 被使用的重要一步)。

所以,你描述的“带有目录(词汇表)、可以被索引(分配 Token ID / Vocabulary Index)、用来组成完整一句话”的核心机制,其关键的专业术语就是 Token ID 或 Vocabulary Index。这是模型理解和生成语言的基础数字表示。

 

posted on 2025-06-20 08:34  GKLBB  阅读(29)  评论(0)    收藏  举报