2025年7月20日

GPT原理

摘要: 1.GPT的定义与发展历程 1.1生成式预训练模型 GPT 是 “Generative Pre-trained Transformer” 的缩写,即生成式预训练变换器,是由 OpenAI 开发的一系列自然语言处理模型。它是一种基于 Transformer 架构的生成模型,通过在大规模文本数据上进行预 阅读全文

posted @ 2025-07-20 14:38 limingqi 阅读(377) 评论(0) 推荐(0)

GPT生成参数微调

摘要: 在 GPT 等大语言模型中,top-p(核采样)和top-k(顶部 k 采样)是控制文本生成多样性与质量的核心参数,属于生成阶段的超参数调优范畴(与训练时的参数优化不同)。以下是其技术原理、调优方法及实际应用策略: 一、核心概念与原理 1. top-k 采样:固定范围的候选词筛选 · 定义:从概率分 阅读全文

posted @ 2025-07-20 14:35 limingqi 阅读(64) 评论(0) 推荐(0)

Self-Attention

摘要: 故事引入 想象你在图书馆找一本编程书籍: 1. 你的需求(Query)是"Python数据科学" 2. 书架标签(Key)显示"机器学习"、"Web开发"等 3. 通过比对需求与标签,你找到最相关(Value)的书籍 这个找书的过程就是注意力机制的生动体现! 核心概念解释 注意力权重:就像找书时要判 阅读全文

posted @ 2025-07-20 12:35 limingqi 阅读(17) 评论(0) 推荐(0)

导航