你应该懂的AI大模型(一) 之 浅知大模型
1、AI 大模型的训练过程
AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。
- 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子;
- 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”;
- 第三步:训练模型:将“孩子”(模型)放进图书馆进行学习,慢慢的“孩子”的语言能力和内容表达越来越接近预先准备的“教材”,形成“base model”或者称之为“uncensored model”。
这个时候的模型训练和使用过程中没有经过内容过滤或审查,没有敏感过滤。这类模型能够生成更加多样化和创造性的文本,由于训练数据中可能包含社会偏见,模型输出可能强化这些偏见,可能生成包含暴力、色情、歧视、谣言等不当内容,带来安全和法律风险,但是这个时候的模型更像是一个真实的人,会骂街会说怪话。
到了这一步模型的知识量是达标的,但是很难胜任就特定的工作,比如成为医生、律师等等,这个时候就需要对模型进行“职业培训”,就需要开展第四步工作。
- 第四步:微调模型:向“孩子”灌输价值观,比如“我爱我的祖国”、“医生不能辱骂病人”。
这个过程不影响 base model 的表现,一个 base model 可以调出成千上万个模型。 这部分的训练成本并没有那么高,基于一个好的大模型 base model 可以训练出自己需要的模型,被微调过的模型可以再次微调。
- 第五步:部署对话机器人,“孩子”已经经过职业培训了可以上岗了。
资源消耗最大的使训练步骤,训练过程可能需要上千张显卡,但是部署使用可能只需要几张显卡。就像学生学习需要建一所学校,但是上班只需要一个工位一样。
2、AI 大模型的训练方式
把“孩子”放进图书馆里,不去管他,可能过上一百年还是学不会书里面的内容,因此我们要帮助建立合理的学习方法。
需要一个能让一个“孩子”从话都不会说,到认识字、到理解书中的知识、到像人一样去思考的一整套学习模式或者叫学习框架,Transformer 就是这样一个框架.
Transformer 是一种基于自注意力机制的深度学习模型架构,最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并成为许多现代模型(如 BERT、GPT 等)的基础。
现在能叫得出名字的大语言模型多数都是基于Transformer这套框架训练的。那么问题来了,为什么使用的是一套学习框架,但是各个厂商训练出来的模型能力不一样呢,这是因为各个厂商的训练算法不一样,这一情况可以理解为,不同学校的孩子使用的教材是一样的,但是受学校教学质量的影响,教育出来的孩子也是千差万别,目前各大厂商在卷的就是训练算法。
上述的内容都是关于模型输出质量方面的,这是模型训练的最重要部分,但不是全部内容,因为在质量不变的情况下,模型训练可以无限的堆砌参数,不管是有效参数或者无效参数,只要模型持续增大,训练时间足够长,你的模型质量总能超越前一代模型。通过这种“大力出奇迹”训练出来的庞大模型是很难商用的,例如你训练需要 1000~2000 张显卡,最后部署需要 100张显卡,如此的成本很难推广使用。
当前的大模型为了质量高,进行了大量甚至巨量的训练,这个量一是指规模、二是指时间,规模大说明需要的显卡多、时间多,规模大说明训练出的模型参数多,参数越多说明模型的规模越大,模型的规模越大说明部署的时候需要的显卡资源越多。模型后面的参数 1B、3B,B 是指 billion。
1B(十亿)参数的模型在不同精度下占用的显存如下:
-
INT8(8位整型):1B参数占用约1GB显存。
-
FP16(半精度浮点):1B参数占用约2GB显存。
-
FP32(全精度浮点):1B参数占用约4GB显存。
因此模型训练不仅在卷质量也在卷成本。
3、什么是数据蒸馏
数据蒸馏(Data Distillation)是一种从大规模数据集中提取关键信息,生成一个规模更小但更具代表性的合成数据集的技术。其目标是在保持模型性能的同时,显著降低数据存储和计算成本。
所谓“蒸馏”,是让大模型的智慧“缩水不减质”地转移到小模型上的技术。它的过程可以用“老师带学生”的方式来形象化理解。我们可以将大语言模型看作经验丰富的教授,而小模型则是刚入门的学生。蒸馏的目标就是让这个学生不需要学习所有课程,却能掌握教授最重要的知识,并在考试,即推理和任务执行中表现得几乎一样好。
OpenAI在说 DeepSeek蒸馏 ChatGPT 的数据。(笔者认为 DeepSeek为了省事儿蒸馏了 OpenAI数据,违背了 OpenAI的商业协议,但是这个所谓的商业协议本身就是有争议的,原本免费的知识经过OpenAI 之后知识就成了收费的了,OpenAI本身自己就官司缠身)
之前OpenAI、Google这样的大公司之前的策略是“规模就是一切”,它们的盈利模式依赖于提供更强的大模型服务,而不是推广小模型。因此,它们更愿意投入更多计算资源去训练更大的模型,而不是优化小模型。并且蒸馏过程本身也是需要计算资源的,因为让大模型生成大量高质量数据,包括它们的推理步骤,也是一个昂贵的过程。既然都贵,那么在早期,很多团队宁愿直接用大模型,而不是投入额外资源去蒸馏小模型。DeepSeek引入了“链式思考”等方式,让小模型不仅能模仿答案,还能学会推理过程。就让蒸馏变得更有效,因此越来越多的团队开始采用了。
训练算法就像是种子,什么样的种子能结出什么样的果子。语料即训练的数据相当于是肥料,好的训练数据能让训练事半功倍,但主要还是看训练算法本身。

浙公网安备 33010602011771号