上一页 1 2 3 4 5 6 ··· 11 下一页
摘要: GPT-3 “预训练-微调”这个范式在许多具有挑战性的NLP任务上取得了重大进展,但是仍然存在许多局限性,最主要的一个是:虽然模型架构与任务无关,但是仍然需要任务特定的数据集和任务特定的微调,要在期望的任务上实现强大的性能,通常需要针对该任务包含数千到数十万个样本的数据集进行微调。 1、为每个任务收 阅读全文
posted @ 2025-08-24 17:30 Luna-Evelyn 阅读(21) 评论(0) 推荐(0)
摘要: GPT-2 文章中指出监督学习的核心弱点:脆弱性与敏感性,监督学习在训练数据分布上表现优异,但是数据分布一旦稍有变化,则性能急剧下降,这样训练出来的系统称为Narrow Expert,单任务单领域的训练范式无法进行举一反三的泛化功能。因此,文章主要宣传的是下游任务中Zero-shot的思想 文章中指 阅读全文
posted @ 2025-08-20 22:43 Luna-Evelyn 阅读(16) 评论(0) 推荐(0)
摘要: GPT-1(Generative Pre-Training) 1、模型结构:OpenAI由2018年介绍了一种名为“生成式预训练”(Generative Pre-Training,简称GPT)的新型语言模型,该模型通过在大规模语料库上进行训练,能够学习自然语言的模式和规律,从而实现更好的语言理解 G 阅读全文
posted @ 2025-08-20 00:03 Luna-Evelyn 阅读(17) 评论(0) 推荐(0)
摘要: Decoding decoding指的是模型在生成文本时,模型会根据前面的内容预测下一个最可能出现的 token,直到满足终止条件(比如达到最大长度或遇到结束符 ) 解码策略决定了模型如何从多个候选toke 中做出选择,不同策略在不同情况下带来的效果是不尽相同的。假设模型已经生成了前n-1个toke 阅读全文
posted @ 2025-08-06 00:01 Luna-Evelyn 阅读(15) 评论(0) 推荐(0)
摘要: Post-norm 在传统的transformer中,layer normalization一般发生在残差之后,即在add之后再进行norm,如果令F为MHAorFFN,那么post-norm则有:Xo = LN(Xi + F(Xi))。post-norm可以使得每个神经网络层的输出都在相似的尺度上 阅读全文
posted @ 2025-08-04 02:05 Luna-Evelyn 阅读(352) 评论(0) 推荐(0)
摘要: FFN(Feed-forward Network) Transformer中的FFN实际上就是由线性层fc+relu激活函数+线性层fc的结构组成 论文中作者提出,attention输出的embedding维度为512,ffn将输入从512升维至2048,而后经过激活后又降维至512 FFN的引入主 阅读全文
posted @ 2025-07-31 22:12 Luna-Evelyn 阅读(58) 评论(0) 推荐(0)
摘要: 今天在Orin NX上进行GPU版本的llama.cpp编译时,遇到了下述问题: cmake -B build -DGGML_CUDA=ON -- Warning: ccache not found - consider installing it for faster compilation or 阅读全文
posted @ 2025-07-29 23:05 Luna-Evelyn 阅读(63) 评论(0) 推荐(0)
摘要: Self-Attention Scaled Dot-Product Attention(缩放点积注意力): Self-Attention允许模型在处理一个输入序列时,关注序列内部的每个元素之间的关系。每个元素既作为查询(Query),又作为键(Key)和值(Value),通过计算自身与其他元素的相关 阅读全文
posted @ 2025-07-28 16:53 Luna-Evelyn 阅读(18) 评论(0) 推荐(0)
摘要: 分词粒度 可分为word,sub-word,charlevel三个分词等级 其中word level存在以下问题: 超大的vocabulary size, 比如中文的常用词可以达到20W个 通常面临比较严重的OOV问题 vocabulary 中存在很多相似的词 charlevel存在以下问题: 文本 阅读全文
posted @ 2025-07-28 03:31 Luna-Evelyn 阅读(10) 评论(0) 推荐(0)
摘要: 为什么需要位置编码? 大模型在处理序列数据时,其内部的注意力机制是内容驱动的,只关注token的相似度,无法感知到token的位置信息,因此需要引入额外的信息来表达token所在的空间信息 sinusoidal位置编码 基于embedding的维度d和其维度中具体的索引i以及token的位置pos进 阅读全文
posted @ 2025-07-25 23:41 Luna-Evelyn 阅读(59) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 11 下一页