会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
The Blog
Do not go gentle into that good night.
Old age should burn and rave at close of day.
Rage, rage against the dying light.
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
11
下一页
2025年8月24日
GPT-3技术报告
摘要: GPT-3 “预训练-微调”这个范式在许多具有挑战性的NLP任务上取得了重大进展,但是仍然存在许多局限性,最主要的一个是:虽然模型架构与任务无关,但是仍然需要任务特定的数据集和任务特定的微调,要在期望的任务上实现强大的性能,通常需要针对该任务包含数千到数十万个样本的数据集进行微调。 1、为每个任务收
阅读全文
posted @ 2025-08-24 17:30 Luna-Evelyn
阅读(21)
评论(0)
推荐(0)
2025年8月20日
GPT-2技术报告
摘要: GPT-2 文章中指出监督学习的核心弱点:脆弱性与敏感性,监督学习在训练数据分布上表现优异,但是数据分布一旦稍有变化,则性能急剧下降,这样训练出来的系统称为Narrow Expert,单任务单领域的训练范式无法进行举一反三的泛化功能。因此,文章主要宣传的是下游任务中Zero-shot的思想 文章中指
阅读全文
posted @ 2025-08-20 22:43 Luna-Evelyn
阅读(16)
评论(0)
推荐(0)
GPT-1技术报告
摘要: GPT-1(Generative Pre-Training) 1、模型结构:OpenAI由2018年介绍了一种名为“生成式预训练”(Generative Pre-Training,简称GPT)的新型语言模型,该模型通过在大规模语料库上进行训练,能够学习自然语言的模式和规律,从而实现更好的语言理解 G
阅读全文
posted @ 2025-08-20 00:03 Luna-Evelyn
阅读(17)
评论(0)
推荐(0)
2025年8月6日
解码策略
摘要: Decoding decoding指的是模型在生成文本时,模型会根据前面的内容预测下一个最可能出现的 token,直到满足终止条件(比如达到最大长度或遇到结束符 ) 解码策略决定了模型如何从多个候选toke 中做出选择,不同策略在不同情况下带来的效果是不尽相同的。假设模型已经生成了前n-1个toke
阅读全文
posted @ 2025-08-06 00:01 Luna-Evelyn
阅读(15)
评论(0)
推荐(0)
2025年8月4日
Post-norm和Pre-norm
摘要: Post-norm 在传统的transformer中,layer normalization一般发生在残差之后,即在add之后再进行norm,如果令F为MHAorFFN,那么post-norm则有:Xo = LN(Xi + F(Xi))。post-norm可以使得每个神经网络层的输出都在相似的尺度上
阅读全文
posted @ 2025-08-04 02:05 Luna-Evelyn
阅读(352)
评论(0)
推荐(0)
2025年7月31日
关于FFN与Add&Norm的一些学习与思考
摘要: FFN(Feed-forward Network) Transformer中的FFN实际上就是由线性层fc+relu激活函数+线性层fc的结构组成 论文中作者提出,attention输出的embedding维度为512,ffn将输入从512升维至2048,而后经过激活后又降维至512 FFN的引入主
阅读全文
posted @ 2025-07-31 22:12 Luna-Evelyn
阅读(58)
评论(0)
推荐(0)
2025年7月29日
llama.cpp编译过程中的cmake版本问题
摘要: 今天在Orin NX上进行GPU版本的llama.cpp编译时,遇到了下述问题: cmake -B build -DGGML_CUDA=ON -- Warning: ccache not found - consider installing it for faster compilation or
阅读全文
posted @ 2025-07-29 23:05 Luna-Evelyn
阅读(63)
评论(0)
推荐(0)
2025年7月28日
Self-attetion && Cross-attetion
摘要: Self-Attention Scaled Dot-Product Attention(缩放点积注意力): Self-Attention允许模型在处理一个输入序列时,关注序列内部的每个元素之间的关系。每个元素既作为查询(Query),又作为键(Key)和值(Value),通过计算自身与其他元素的相关
阅读全文
posted @ 2025-07-28 16:53 Luna-Evelyn
阅读(18)
评论(0)
推荐(0)
Tokenizer
摘要: 分词粒度 可分为word,sub-word,charlevel三个分词等级 其中word level存在以下问题: 超大的vocabulary size, 比如中文的常用词可以达到20W个 通常面临比较严重的OOV问题 vocabulary 中存在很多相似的词 charlevel存在以下问题: 文本
阅读全文
posted @ 2025-07-28 03:31 Luna-Evelyn
阅读(10)
评论(0)
推荐(0)
2025年7月25日
LLM常见的位置编码
摘要: 为什么需要位置编码? 大模型在处理序列数据时,其内部的注意力机制是内容驱动的,只关注token的相似度,无法感知到token的位置信息,因此需要引入额外的信息来表达token所在的空间信息 sinusoidal位置编码 基于embedding的维度d和其维度中具体的索引i以及token的位置pos进
阅读全文
posted @ 2025-07-25 23:41 Luna-Evelyn
阅读(59)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
11
下一页
公告