摘要: Background(Hard Prompt & Soft Prompt) 自大模型出现以来,各路研究人员都在寻找合适的方案讲这些模型适配到下游任务重,例如Peters等人提出的ELMo则冻结预训练模型参数,只学习其中各层表示进的特定任务加权。但是自 GPT 和 BERT 出现以来,最主流的下游任务 阅读全文
posted @ 2025-10-25 03:43 Luna-Evelyn 阅读(2) 评论(0) 推荐(0)
摘要: LoRA 主流的大模型训练范式之一便是“Pre-train + Finetune”,即“通用能力的学习+下游任务的适配”两个环节,而在下游任务适配这一环节中,似乎全参数的微调成本随着模型规模的增大而逐渐变得难以接受,部分研究者也针对这个问题进行了一些高效适配方案的研究 目前主流的下游任务高效适配方案 阅读全文
posted @ 2025-10-22 02:54 Luna-Evelyn 阅读(10) 评论(0) 推荐(0)
摘要: Adam(Adaptive Moment Estimation) Adam是一种自适应地优化算法,结合了Momentum和RMSProp的特点,在优化过程中自适应地调整优化的学习率,其组成部分主要分为一阶矩估计和二阶矩估计 1、一阶矩估计表示为\(m_t\),计算公式如下: \(m_t=\beta_ 阅读全文
posted @ 2025-10-12 23:23 Luna-Evelyn 阅读(8) 评论(0) 推荐(0)
摘要: 传统的参数化模型如GPT、BERT,这些模型训练完成后,知识就锁死在模型参数中,难以更新。且由于且的黑箱性质,无法提供预测的依据或来源,并且非常容易产生幻觉,容易编造看似合理但虚假的信息 Facebook为了解决上述提到的问题,提出了Retrieval-Augmented Generation (R 阅读全文
posted @ 2025-09-26 16:41 Luna-Evelyn 阅读(52) 评论(0) 推荐(0)
摘要: QWEN(千问)是阿里发布的一个全面的LLM系列,涵盖了不同参数规模的各类模型,这些模型之间的关系网如下: 1、QWEN(基础预训练模型),使用多达3万亿tokens的多样化文本和代码数据进行了大规模预训练,涵盖广泛领域; 2、QWEN-CHAT系列,包含Qwen-Chat和Qwen-Chat-RL 阅读全文
posted @ 2025-09-13 21:08 Luna-Evelyn 阅读(23) 评论(0) 推荐(0)
摘要: ReLU(Rectified Linear Unit) 表达式:\(ReLU(x)=max(0,x)\) 在最早期的一些神经网络和小型NLP模型中,ReLU是出现频次最高的激活函数,但是在Transformer出现后,ReLU的一些问题也随之被放大,在\(x<0\)时,ReLU将梯度完全截断,在大规 阅读全文
posted @ 2025-09-11 22:46 Luna-Evelyn 阅读(60) 评论(0) 推荐(0)
摘要: GPT-3基于Few-shot展示了一个现象:模型的能力随着其规模的增大而获得提升。然而,Hoffmann等人在2022年的工作——《Training Compute-Optimal Large Language Models》中提到:在固定的计算预算下,最佳性能并不是由最大模型取得的,而是由较小的 阅读全文
posted @ 2025-09-08 20:23 Luna-Evelyn 阅读(14) 评论(0) 推荐(0)
摘要: 深度学习的成功依赖于两个因素:更大的模型与更多的数据。但是对于典型的深度学习模型而言,每一个训练样本都会激活整个模型参数,随着模型规模和数据规模的增大,这些计算量的增长是爆炸式的,看起来似乎令人不太可接受 为了应对这种问题,研究人员提出了各类形式的“条件计算”,即让每个样本只激活模型的一部分参数,哪 阅读全文
posted @ 2025-09-04 21:35 Luna-Evelyn 阅读(22) 评论(0) 推荐(0)
摘要: DDPM 今天跟着李宏毅老师学习Diffusion Model的原理:【扩散模型 - Diffusion Model【李宏毅2023】】 https://www.bilibili.com/video/BV14c411J7f2/?p=3&share_source=copy_web&vd_source= 阅读全文
posted @ 2025-08-30 14:58 Luna-Evelyn 阅读(9) 评论(0) 推荐(0)
摘要: InstructGPT(1) gpt-3文章末尾提到过如下类似观点:“最终有用的系统应是目标驱动的,而非仅仅是概率预测,这可能是当前gpt系列预训练方式一个较大的局限性所在”。InstructGPT文章中就指出了,这种局限性会带来许多坏处:捏造事实、生成有偏见或有害的文本、不遵循用户指令等。因为本质 阅读全文
posted @ 2025-08-25 01:12 Luna-Evelyn 阅读(12) 评论(0) 推荐(0)