上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页

2025年7月20日

GPT原理

摘要: 1.GPT的定义与发展历程 1.1生成式预训练模型 GPT 是 “Generative Pre-trained Transformer” 的缩写,即生成式预训练变换器,是由 OpenAI 开发的一系列自然语言处理模型。它是一种基于 Transformer 架构的生成模型,通过在大规模文本数据上进行预 阅读全文

posted @ 2025-07-20 14:38 limingqi 阅读(563) 评论(0) 推荐(0)

GPT生成参数微调

摘要: 在 GPT 等大语言模型中,top-p(核采样)和top-k(顶部 k 采样)是控制文本生成多样性与质量的核心参数,属于生成阶段的超参数调优范畴(与训练时的参数优化不同)。以下是其技术原理、调优方法及实际应用策略: 一、核心概念与原理 1. top-k 采样:固定范围的候选词筛选 · 定义:从概率分 阅读全文

posted @ 2025-07-20 14:35 limingqi 阅读(108) 评论(0) 推荐(0)

Self-Attention

摘要: 故事引入 想象你在图书馆找一本编程书籍: 1. 你的需求(Query)是"Python数据科学" 2. 书架标签(Key)显示"机器学习"、"Web开发"等 3. 通过比对需求与标签,你找到最相关(Value)的书籍 这个找书的过程就是注意力机制的生动体现! 核心概念解释 注意力权重:就像找书时要判 阅读全文

posted @ 2025-07-20 12:35 limingqi 阅读(29) 评论(0) 推荐(0)

2025年7月19日

Tokenization

摘要: 分词(Tokenization)是自然语言处理(NLP)中的基础预处理步骤,它架起了原始文本与机器学习模型之间的桥梁。分词过程涉及将文本分解为称为“token”的更小单元,随后这些token被转换为数字ID。这些ID会作为LLM的输入,并通过嵌入层映射为捕捉语义含义的向量表示。 分词方法的选择对LL 阅读全文

posted @ 2025-07-19 19:24 limingqi 阅读(101) 评论(0) 推荐(0)

2025年7月18日

Transformer原理与实现详解:从零入门到实战

摘要: 本文将从 Transformer的本质、Transformer的原理 和 Transformer架构改进三个方面,搞懂Transformer。 一、Transformer的本质 Transformer的核心原理基于自注意力机制,通过编码器-解码器架构实现序列到序列的转换,其核心创新在于并行处理能力和 阅读全文

posted @ 2025-07-18 22:46 limingqi 阅读(5272) 评论(0) 推荐(0)

2025年7月17日

图像数据增强以及python实现

摘要: 一、数据增强概述 数据增强是一种通过使用已有的训练样本数据来生成更多训练数据的方法,可以应用于解决数据不足的问题。数据增强技术可以用来提高模型的泛化能力,减少过拟合现象。比如在狗猫识别项目中,通过随机旋转、翻转和裁剪等数据增强方法,可以使模型具有对不同角度和尺寸的狗猫图像的识别能力。其主要作用包括: 阅读全文

posted @ 2025-07-17 22:53 limingqi 阅读(149) 评论(0) 推荐(0)

2025年7月16日

文本数据增强以及python实现

摘要: 1. 背景介绍 1.1 数据稀缺:AI时代的"自然资源短缺" 在人工智能和机器学习迅猛发展的今天,我们常听到"数据是新的石油"这一比喻。然而,对于文本分析任务而言,高质量的标注数据更像是一种稀缺的"稀土资源"——获取成本高昂,却对最终产品质量至关重要。 想象一下,您正在为一家电商平台构建一个客户评论 阅读全文

posted @ 2025-07-16 21:25 limingqi 阅读(133) 评论(0) 推荐(0)

2025年7月15日

异常检测:K-Means算法

摘要: K-Means算法是一个聚类算法,在样本没有类别的情况下可以通过算法聚出类别,比如某公司中有大量的用户,现在需要我们将用户划分出类别,但是现在我们并不知道怎么划分更好,这个时候就可以通过K-Means算法来帮助我们划分出类别。其原理是通过计算样本到质心的距离来对样本聚出类别,其中的距离我们可以理解为 阅读全文

posted @ 2025-07-15 20:59 limingqi 阅读(168) 评论(0) 推荐(0)

异常检测:3西格玛原则

摘要: 3σ原则基于正态分布的数学原理,它假设一组检测数据中只含有随机误差,通过计算得到标准偏差σ,然后按一定概率确定一个区间,对于超过这个区间的误差,就不属于随机误差而是粗大误差,将含有粗大误差的数据进行剔除。 在统计学中,如果一个变量服从正态分布,且它的均值是u, 标准差是σ,那么将有: (1)68.2 阅读全文

posted @ 2025-07-15 20:49 limingqi 阅读(1992) 评论(0) 推荐(0)

2025年7月14日

异常检测:四分位距法(IQR)

摘要: 一、IQR介绍 IQR(Interquartile Range)算法是一种用于检测异常值的统计方法,主要基于数据的四分位数。IQR 代表数据集中第 1 四分位数(Q1)和第 3 四分位数(Q3)之间的范围。 1.1 IQR 算法步骤 1)计算四分位数: Q1(下四分位数):数据中 25% 的值。Q3 阅读全文

posted @ 2025-07-14 20:38 limingqi 阅读(1132) 评论(2) 推荐(1)

上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页

导航