随笔分类 - LLM
摘要:2025.10.17 1.大型语言模型在预训练阶段学习通用表示能力,使得模型能在零样本学习中有效推理,这主要归功于Transformer架构的自注意力模块。自注意力机制使模型能够捕捉上下文依赖和长距离关系,从而学习通用表征,支持零样本泛化。
阅读全文
摘要:2025.10.17 1.KV缓存(Key-Value Cache)是大语言模型推理优化中的一项技术,主要用于存储注意力机制中先前计算的键(Key)和值(Value)矩阵,以避免在生成每个新token时重复计算整个序列,从而加速解码过程并减少响应时间。
阅读全文
摘要:2025.10.17 1.模型验证用于确保模型在未见数据上的表现,从而评估其泛化能力
阅读全文
摘要:2025.10.15 1.ROUGE指标是评估文本生成质量的常用指标,通过计算生成文本与参考文本之间的n-gram重叠度来测量内容相似性和召回率
阅读全文
摘要:2025.10.15 1.精确率是指正确预测的正样本数与所有预测为正样本的比率,反映了模型预测为正样本的准确性
阅读全文
摘要:2025.10.14 位置编码外推失效是Transformer模型在长文本推理中出现上下文丢失的最常见架构限制,因为训练时使用的固定位置编码(如正弦编码)无法有效外推至超出训练长度的序列位置,导致位置信息丢失。 残差连接梯度消失主要影响训练而非推理时的上下文丢失; 前馈网络宽度不足影响模型容量但非长
阅读全文
摘要:2025.10.14 在大型语言模型的工程实践中,提高泛化能力的最常见策略是使用更大的预训练数据集,因为更多数据可以帮助模型学习更泛化的表示,例如GPT-3和BERT等模型都强调大规模数据集的应用。
阅读全文
摘要:Multi-Head Attention机制的主要设计目的是通过多个注意力头并行地捕捉输入序列中的不同子空间依赖关系,从而使模型能够同时关注输入的不同方面(如不同位置或语义子空间)。 Multi-Head Attention不降低embedding维度,反而可能增加计算开销(通过分割输入到多个头再拼
阅读全文
摘要:2025.10.14 混淆矩阵可以显示模型的所有预测结果,包括真正例、假正例、真负例和假负例,从而帮助分析模型的性能 混淆矩阵不仅仅显示准确率,还提供更详细的分类结果 混淆矩阵与训练损失无关 混淆矩阵不涉及超参数设置
阅读全文
摘要:2025.10.14 上下文学习(In-context Learning, ICL)的核心机制是在推理阶段不更新模型参数,利用提示中的少量示例引导模型生成适应新任务的输出。也就是'在不更新参数的情况下,利用提示中的示例让模型在内部条件化地模拟一个学习器'。 ICL不需要在训练或推理过程中更新参数;
阅读全文
摘要:2025.10.11 1.掩码语言建模(MLM)任务在预训练阶段的主要目的是让模型通过预测被掩码的词来学习上下文相关的双向表示,如BERT模型所示。 2025.10.15 1.大型预训练语言模型(如GPT、BERT等)的预训练阶段通常采用自监督学习(Self-Supervised Learning)
阅读全文
摘要:2025.10.11 1.在分布式训练大型模型时,数据并行策略的核心定义是:在多个设备上复制完整模型,每个设备处理独立的数据批次,并通过同步梯度来更新模型参数。
阅读全文
摘要:2025.10.11 1.在大型语言模型的预训练-微调范式中,参数高效方法(如Adapter、LoRA)旨在通过仅更新少量参数来减少微调的计算开销。
阅读全文
摘要:2025.10.11 1.ROC曲线(接收者操作特征曲线)描述了模型的真正率(TPR)与假正率(FPR)之间的关系,用于评估二分类模型的性能
阅读全文
摘要:2025.10.11 1.核心思想 通过冻结预训练模型的权重,避免全量微调,并添加可训练的低秩分解矩阵来高效捕获新任务的知识
阅读全文
摘要:2025.8.14 1.主要有6步 1.1 用户输入处理:解析查询,可能进行意图识别、实体识别、查询扩展 1.2 文档检索:使用索引从文档库中找到相关段落,可能需要预处理和索引 1.3 文档处理:堆找到的结果进行排序、去重、截断、摘要 1.4 信息整合:将处理结果和原查询结合,交给生成模型 1.5
阅读全文
摘要:2025.8.14 1.agent的搭建围绕“任务规划”、“工具调用”、“记忆管理”这三部分
阅读全文

浙公网安备 33010602011771号