会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
The Blog
Do not go gentle into that good night.
Old age should burn and rave at close of day.
Rage, rage against the dying light.
博客园
首页
新随笔
联系
订阅
管理
2025年10月25日
Prompt Tuning-《The Power of Scale for Parameter-Efficient Prompt Tuning》论文解读
摘要: Background(Hard Prompt & Soft Prompt) 自大模型出现以来,各路研究人员都在寻找合适的方案讲这些模型适配到下游任务重,例如Peters等人提出的ELMo则冻结预训练模型参数,只学习其中各层表示进的特定任务加权。但是自 GPT 和 BERT 出现以来,最主流的下游任务
阅读全文
posted @ 2025-10-25 03:43 Luna-Evelyn
阅读(2)
评论(0)
推荐(0)
2025年10月22日
LoRA-《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》论文解读
摘要: LoRA 主流的大模型训练范式之一便是“Pre-train + Finetune”,即“通用能力的学习+下游任务的适配”两个环节,而在下游任务适配这一环节中,似乎全参数的微调成本随着模型规模的增大而逐渐变得难以接受,部分研究者也针对这个问题进行了一些高效适配方案的研究 目前主流的下游任务高效适配方案
阅读全文
posted @ 2025-10-22 02:54 Luna-Evelyn
阅读(10)
评论(0)
推荐(0)
2025年10月12日
关于深度学习中的优化器:Adam、AdamW、Muon、Shampoo
摘要: Adam(Adaptive Moment Estimation) Adam是一种自适应地优化算法,结合了Momentum和RMSProp的特点,在优化过程中自适应地调整优化的学习率,其组成部分主要分为一阶矩估计和二阶矩估计 1、一阶矩估计表示为\(m_t\),计算公式如下: \(m_t=\beta_
阅读全文
posted @ 2025-10-12 23:23 Luna-Evelyn
阅读(8)
评论(0)
推荐(0)
2025年9月26日
RAG:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》论文解读
摘要: 传统的参数化模型如GPT、BERT,这些模型训练完成后,知识就锁死在模型参数中,难以更新。且由于且的黑箱性质,无法提供预测的依据或来源,并且非常容易产生幻觉,容易编造看似合理但虚假的信息 Facebook为了解决上述提到的问题,提出了Retrieval-Augmented Generation (R
阅读全文
posted @ 2025-09-26 16:41 Luna-Evelyn
阅读(52)
评论(0)
推荐(0)
2025年9月13日
QWEN技术报告
摘要: QWEN(千问)是阿里发布的一个全面的LLM系列,涵盖了不同参数规模的各类模型,这些模型之间的关系网如下: 1、QWEN(基础预训练模型),使用多达3万亿tokens的多样化文本和代码数据进行了大规模预训练,涵盖广泛领域; 2、QWEN-CHAT系列,包含Qwen-Chat和Qwen-Chat-RL
阅读全文
posted @ 2025-09-13 21:08 Luna-Evelyn
阅读(23)
评论(0)
推荐(0)
2025年9月11日
LLM中的激活函数
摘要: ReLU(Rectified Linear Unit) 表达式:\(ReLU(x)=max(0,x)\) 在最早期的一些神经网络和小型NLP模型中,ReLU是出现频次最高的激活函数,但是在Transformer出现后,ReLU的一些问题也随之被放大,在\(x<0\)时,ReLU将梯度完全截断,在大规
阅读全文
posted @ 2025-09-11 22:46 Luna-Evelyn
阅读(60)
评论(0)
推荐(0)
2025年9月8日
LLaMA技术报告
摘要: GPT-3基于Few-shot展示了一个现象:模型的能力随着其规模的增大而获得提升。然而,Hoffmann等人在2022年的工作——《Training Compute-Optimal Large Language Models》中提到:在固定的计算预算下,最佳性能并不是由最大模型取得的,而是由较小的
阅读全文
posted @ 2025-09-08 20:23 Luna-Evelyn
阅读(14)
评论(0)
推荐(0)
2025年9月4日
MoE——《OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER》
摘要: 深度学习的成功依赖于两个因素:更大的模型与更多的数据。但是对于典型的深度学习模型而言,每一个训练样本都会激活整个模型参数,随着模型规模和数据规模的增大,这些计算量的增长是爆炸式的,看起来似乎令人不太可接受 为了应对这种问题,研究人员提出了各类形式的“条件计算”,即让每个样本只激活模型的一部分参数,哪
阅读全文
posted @ 2025-09-04 21:35 Luna-Evelyn
阅读(22)
评论(0)
推荐(0)
2025年8月30日
VAE && DDPM
摘要: DDPM 今天跟着李宏毅老师学习Diffusion Model的原理:【扩散模型 - Diffusion Model【李宏毅2023】】 https://www.bilibili.com/video/BV14c411J7f2/?p=3&share_source=copy_web&vd_source=
阅读全文
posted @ 2025-08-30 14:58 Luna-Evelyn
阅读(9)
评论(0)
推荐(0)
2025年8月25日
InstructGPT技术报告 && RLHF && PPO
摘要: InstructGPT(1) gpt-3文章末尾提到过如下类似观点:“最终有用的系统应是目标驱动的,而非仅仅是概率预测,这可能是当前gpt系列预训练方式一个较大的局限性所在”。InstructGPT文章中就指出了,这种局限性会带来许多坏处:捏造事实、生成有偏见或有害的文本、不遵循用户指令等。因为本质
阅读全文
posted @ 2025-08-25 01:12 Luna-Evelyn
阅读(12)
评论(0)
推荐(0)
下一页
公告