大模型基础(一)核心概念规整

基础概念梳理

名词/概念词专业解释非专业举例说明
参数​ 模型内部可调整的数值,通过在大量数据上训练学习而得。它们是模型知识的载体,决定了模型如何处理输入并产生输出。 好比一个超级大脑的神经元连接强度和数量。参数越多,这个“大脑”的结构越复杂,能记住和理解的知识就越多(比如GPT-3有1750亿个参数)。
Transformer 架构​ 一种基于“自注意力机制”的深度学习模型架构。它是当今绝大多数LLM和VLM的基石,能高效地处理序列数据(如文本),理解单词之间的关系。 就像一个高效的阅读小组。小组在阅读一篇文章时,每个成员(注意力头)都会专注于文章中不同词语之间的联系(比如“它”指代的是什么),并共同理解全文意思。
分词​ 将原始文本分割成模型能够理解的更小单元(如词语、子词或字符)的过程。这是文本输入模型前的必要步骤。 就像我们学英语要把句子拆成单词一样。比如“I'm learning.” 会被分词成 ["I", "'", "m", "learning", "."]这几个单元给模型处理。
预训练​ 模型训练的第一阶段,在海量无标注数据上通过自监督学习(如预测下一个词)来学习语言的通用知识、语法和事实。这是一个“通识教育”的过程。 让模型“博览群书”,像一个人读完了整个互联网,学会了语言的规律和世界的常识,但它还不知道具体要完成什么任务。
微调​ 在预训练模型的基础上,使用特定任务的小规模、高质量数据对其进行额外训练,使其适应特定领域或任务(如法律问答、客服对话)。 给那个“博览群书”的模型进行“职业培训”。比如,用大量的医患对话记录去微调模型,它就能成为一个专业的医疗问答助手。
提示/提示词​ 用户提供给模型的指令或问题,用于引导模型产生期望的输出。提示词的质量直接影响模型回答的效果。 就像你向一个知识渊博但需要明确指引的助手提问。模糊的提示:“说点关于狗的事”。清晰的提示:“请列举三种最受欢迎的家庭犬种及其特点。”
提示工程​ 设计和优化提示词的技术和艺术,旨在更有效、更可靠地激发模型的能力,得到更准确、相关的回答。 学习如何与这个大模型助手高效沟通的“话术”。比如,在提示词中加入“一步一步地思考”可以引导模型展示其推理过程。
上下文窗口​ 模型在一次处理时所能考虑的提示词和生成文本的总长度限制。它就像是模型的“短期工作记忆”。 就像你和人聊天时,对方能记住并参考的最近对话内容长度。如果对话太长,他可能会忘记最开始说了什么。上下文窗口就是模型的“记忆跨度”。
思维链​ 一种提示技术,要求模型在给出最终答案前,先输出其推理的中间步骤。这能显著提高模型在复杂推理任务上的准确性。 像小学生解数学应用题,被要求“写出计算过程”。模型一步步推理(“首先...,然后...,因此...”),最终得出答案,这样更容易发现和纠正错误。
对齐​ 通过技术手段(如RLHF)使模型的行为与人类的价值观、意图和偏好保持一致,使其变得有用、诚实且无害。 不仅让模型“聪明”,还要让它“有教养、守规矩”。避免它生成有害、有偏见或胡说八道的内容,成为一个负责任的人工智能。
人类反馈强化学习​ 一种重要的对齐技术。利用人类对模型不同回答的偏好评分(哪个更好)来训练模型,使其逐步学会选择更符合人类偏好的回答。 “师傅带徒弟”。人类师傅查看模型给出的几个答案,指出哪个更好(打分),模型(徒弟)根据反馈不断调整自己,越来越接近师傅的要求。
知识蒸馏​ 将大型、复杂模型(“教师模型”)的知识“蒸馏”或压缩到小型、高效模型(“学生模型”)中的技术。目的是在保持性能的同时,减小模型体积、降低部署成本。 就像把一本百科全书(教师模型)的精华知识,总结成一本便携的考前重点小册子(学生模型)。小册子更轻便、查阅更快,但核心知识都在。
幻觉​ 指模型生成的内容在事实上是不正确的或毫无根据的,但模型以非常自信的方式呈现出来。这是大模型目前面临的主要挑战之一。 模型在“一本正经地胡说八道”。比如你问它“是谁发现了相对论?”,它可能会回答“是爱因斯坦和牛顿共同发现的”,这听起来合理但实际上是错误的。
多模态​ 模型能够处理和生成多种类型的信息(模态),如文本、图像、音频、视频等。VLM(视觉语言模型)就是文本和图像多模态的典型代表。 一个“全能型艺术家”,既能根据文字描述作画(文生图),也能看一张图然后写出故事(图生文),打破了文字和图像的界限。
视觉语言模型​ 一种特殊的大模型,能够同时理解视觉(图像/视频)和语言(文本)信息,并在两者之间建立联系、进行推理和生成。 像一个具备视觉能力的智能助手。你给它一张照片,问“图片里这个人为什么开心?”它能分析图片内容(人物表情、环境)并给出合理回答。
 

 

核心组件与架构基础

名词/概念词专业解释非专业举例说明
神经网络​ 受大脑神经元网络启发的一种计算模型。由大量相互连接的“神经元”(节点)组成,通过调整连接强度(权重)来学习数据中的复杂模式。 像一个由许多简单的开关(神经元)和电线(连接)组成的巨大电路。通过调整电流(数据)如何流过这个电路,让整个网络学会完成特定任务,比如识别猫的图片。
嵌入​ 将离散的符号(如单词、图片碎片)转换为高维空间中的连续数值向量。这个向量能够捕获符号的语义信息(如“国王”和“王后”的向量关系类似于“男人”和“女人”)。 给每个单词分配一个“数字身份证”或“坐标”。意思相近的词(如“猫”和“狗”)在空间中的坐标会很接近,而意思无关的词(如“猫”和“汽车”)则相距甚远。
自注意力机制​ Transformer架构的核心。允许序列中的每个位置在计算其表示时,权衡序列中所有其他位置的重要性。从而动态地捕捉序列内部的全局依赖关系。 读一句话时,大脑会瞬间关注到与当前词最相关的词。比如读“它”的时候,你会自动关注前面提到的核心名词(如“苹果”),从而理解“它”指代什么。自注意力机制就是让模型自动完成这个过程。
前馈神经网络​ Transformer架构中的一个子模块,每个位置(如每个词)的信息会独立地通过一个小型神经网络,进行非线性变换,增加模型的表达能力。 在自注意力机制完成了“信息混合”之后,每个词再“独立思考”一下,深化自己对当前语境下的理解。
层归一化​ 一种稳定训练过程的技术,对每一层神经元的输出进行标准化(调整均值和方差),防止梯度爆炸或消失,加速模型收敛。 就像在团队协作中,定期对每个人的工作输出进行“校准”,确保大家的贡献在同一个量级上,避免个别人的输出过大或过小影响整体进度。
位置编码​ 因为Transformer本身不包含顺序信息,需要额外注入每个词在序列中的位置信息。通常通过一组特定的正弦余弦函数或可学习的参数来实现。 给句子中的每个词标上“1,2,3...”的序号。这样模型就知道“狗追猫”和“猫追狗”是不同的,即使词是一样的。
解码器 & 编码器​ Transformer的两种主要架构。编码器(如BERT)擅长理解输入,用于分类、提取等任务;解码器(如GPT系列)擅长根据输入生成序列,用于写作、翻译等。 编码器像是一个“阅读理解专家”,你给它一篇文章,它告诉你文章的中心思想。解码器像是一个“写作大师”,你给它一个开头,它能把故事续写下去。

 

数据与训练流程

名词/概念词专业解释非专业举例说明
语言建模​ 预训练的核心任务,即根据上文预测下一个词(或遮蔽的词)。这是一个自监督学习任务,无需人工标注。 “完形填空”或“单词接龙”。给定“今天天气很好,我们一起去__”,模型的任务是预测最可能的下一个词,如“公园”。
损失函数​ 一个衡量模型预测输出与真实值之间差距的函数。训练的目标就是最小化这个损失值。 “考试的评分标准”。模型每次预测后,根据这个标准给自己打分,目标是让分数越来越高(错误越来越少)。
梯度下降​ 优化模型参数的核心算法。通过计算损失函数相对于模型参数的梯度(导数),沿着梯度下降的方向更新参数,以最小化损失。 想象你在山上蒙着眼找下山的路。你用脚感受一下哪个方向最陡(梯度),然后往那个方向走一小步(学习率)。重复这个过程,最终就能走到山底(损失最小)。
反向传播​ 高效计算整个神经网络梯度的方法。它先进行前向传播计算输出和损失,然后将损失从输出层向输入层反向传播,利用链式法则计算每个参数的梯度。 就像追查一个重大事故的责任链。最终损失(事故后果)发生后,从最后一步开始,一步步反向追溯,找出每个环节(每个参数)应该承担多少责任(梯度)。
过拟合​ 模型在训练数据上表现很好,但在未见过的测试数据上表现很差。意味着模型只是“死记硬背”了训练集,而没有学到泛化的规律。 一个学生只会背考题,考试如果遇到原题能考满分,但题目稍作变化就不会了。这说明他没有真正理解知识。
泛化​ 模型在未见过的数据上表现良好的能力,是模型追求的最终目标。 学生真正掌握了知识点和解题方法,无论考试题目如何变化,他都能举一反三,考出好成绩。
困惑度​ 评估语言模型好坏的常用指标。直观理解是模型在预测下一个词时的“平均分支数”或不确定性。困惑度越低,模型越好。 相当于模型的 “懵逼指数”。指数越低,说明模型对下一个该是什么词越确定、越不困惑。比如,对于“1+1=_”这个上文,好模型的困惑度会很低(因为它很确定是“2”)。
 

模型能力、评估与限制

名词/概念词专业解释非专业举例说明
涌现能力​ 当模型规模(参数、数据、算力)超过某个临界点时,模型表现出的在小型模型中不存在的新能力(如推理、编程等)。这些能力并非被明确编程的。 就像无数个简单的神经元连接在一起,突然产生了“意识”或“智慧”这种高级属性。当模型的“脑容量”足够大时,它就“自然而然”地会了一些意想不到的技能。
指令微调​ 在预训练后,使用大量由指令和对应回答组成的数据对模型进行微调,使其能更好地理解和遵循人类的指令。这是让模型变得“有用”的关键一步。 预训练模型是一个“无所不知但很散漫的学者”,指令微调就是对它进行“职业化训练”,让它学会用“好的,先生/女士”这样的方式回答问题,成为一个合格的“助手”。
思维链​ 上面表格有,但值得再提:一种通过提示词激发模型复杂推理能力的技术。 “把思考过程大声说出来”。
缩放定律​ 描述了模型性能与规模(模型参数、训练数据量、计算量)之间的可预测的幂律关系。指导着业界如何有效投入资源以提升模型能力。 类似于经济学中的 “投入-产出”关系模型。根据这个定律,我们可以大致预测,如果想把模型能力提升10倍,大概需要投入多少算力和数据。
幻觉​ 上面表格有,但这是核心限制:模型生成不准确或虚构内容。 “创造性地撒谎”。
偏见与公平性​ 由于训练数据本身存在的社会偏见(如性别、种族歧视),模型也会学会并放大这些偏见,导致其输出不公平。 “垃圾进,垃圾出”。如果模型用充满偏见的社会新闻数据训练,它就可能成为一个有偏见的模型。

关键技术方法与技巧

名词/概念词专业解释非专业举例说明
检索增强生成​ 解决模型幻觉和知识陈旧问题的方法。在生成答案前,先从外部知识库(如搜索引擎、数据库)检索相关信息,然后将检索到的信息和问题一起作为提示词给模型,让模型根据可靠信息生成答案。 让模型在回答问题前,先“联网搜索”一下最新资料,而不是只依赖它训练时记住的、可能过时的知识。这就像开卷考试,允许查资料。
量化​ 一种模型压缩技术,将模型参数的数值精度从高(如32位浮点数)降低到低(如8位整数),大幅减少模型体积和推理耗时,便于在边缘设备部署。 把一张高清无损的专业单反照片(模型),转换成一张高质量的手机JPG照片。体积小了很多,传输更快,虽然损失了一些细节,但主要信息都在,完全够日常使用。
低秩适应​ 一种高效的微调技术。在微调时,不更新整个巨大的模型参数,只更新额外注入的一些小型矩阵(低秩适配器),从而用极小的计算成本让模型适应新任务。 不想重装整个电脑系统(全量微调),而是安装一个小的插件或皮肤(LoRA模块),就能让系统拥有新的主题和功能。
思维树/图​ 一种高级提示技术,让模型对一个问题进行多种可能的推理路径探索,并评估这些路径,最终选择最优路径得出答案,显著提升复杂问题的解决能力。 像下棋时的“多步推演”,在脑海中思考“如果我走这里,对方可能会走那里,然后我可以...”,比较不同走法的后果,选择最优解。
posted @ 2025-11-13 10:15  vin_howe  阅读(0)  评论(0)    收藏  举报