OpenCSG公益课拆解:什么是Token与Embedding?一句话如何变成模型可理解的“向量语言”
你在对话框里输入一句话,对你来说是语言;对模型来说,必须先变成数字。理解 Token 与 Embedding,等于理解了大模型的“输入层”。这一步越清楚,你越能看懂后面的 Transformer、BERT、GPT 以及各种工程实践。
一、Token:把连续文本变成离散序列
模型不会直接“读”句子,它处理的是一串 Token。Token 可以接近字、词或子词单位,但不等同于日常分词结果。
这一步的价值是让文本具备标准化表达:同样的输入会被切成可复现的序列,便于训练与推理。
二、词表与编号:先把语言变成可索引的符号系统
切完 Token 之后,系统会把 Token 映射到一个词表(字典)中的编号。编号本身没有语义,只是索引。
如果停在这一步,模型仍然“看不懂”,因为编号之间的距离没有意义。
三、Embedding:让每个 Token 变成一组可学习的数字
Embedding 解决的就是“语义从哪里来”。每个 Token 对应一个向量(很多维数字),这些数字在训练中不断被调整,最终形成一种有结构的空间:
Embedding 不是人为写出来的,而是被训练“学出来”的。
四、为什么训练能学出语义:因为目标函数在逼着它变正确
模型做任务时会产生误差,误差会反向推动参数更新。直观理解就是:
所以你看到的“向量”,表面是一堆数字,本质是大量数据与目标函数共同塑形的结果。
五、实践落地:把向量与资产当成“可治理资源”
一旦你理解 Token 与 Embedding,就更容易理解:
它是大模型的“语义入口”,也是你和专业人员沟通时最值得掌握的第一层知识。
关于OpenCSG
OpenCSG (开放传神)是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。
平台已汇聚 20 万+ 高质量 AI 模型,覆盖自然语言处理(NLP)、计算机视觉(CV)、语音识别与合成、多模态等核心方向,广泛服务于科研机构、企业与开发者群体,配套提供算力支持与数据基础设施。
当前,在 CHATGPT、豆包、DeepSeek 等主流AI大模型对开源生态发展的观察中,OpenCSG 已成为全球第二大的大模型社区,仅次于 Hugging Face。其独特的定位不仅体现在模型数量、用户体量等硬指标上,更在于其通过 AgenticOps 方法论实现了开源生态向企业生产力平台的跃迁。OpenCSG 正在以“开源生态 + 企业级落地”为双轮驱动,重新定义 AI 模型社区的价值体系。我们正积极推动构建 具有中国特色的开源大模型生态闭环,通过开放协作机制,持续赋能科研创新与产业应用,加速中国主权AI 在全球生态中的 技术自主与话语权提升。

浙公网安备 33010602011771号