文章分类 -  大语言模型

摘要:指令微调(核心思想是执行特定任务时,只有一小部分参数起作用。) 主成分分析和压缩感知是什么? (1)明确任务的指令或提示。 (2)整理数据为指令和响应。 (3)对预训练模型进行微调。 构建微调数据集的四种方法 (1)手动: 网页收集:InstructionWild v2,LCCC 真人专门构建:D 阅读全文
posted @ 2025-04-21 14:10 keepsoft123 阅读(58) 评论(0) 推荐(0)
摘要:手撕环节 1.手撕rope 疑问: 为什么现在大多数大语言模型采用仅有解码器组成的网络结构? 出现灾难遗忘怎么处理? 可采用弹性权重固定和记忆增强的方法 弹性权重固定:是根据参数的更新程度来调整学习率,防止大幅度更新参数,导致灾难遗忘。通俗一点就是,防止你学的太多。 记忆增强(rag?):给大语言模 阅读全文
posted @ 2025-03-24 16:39 keepsoft123 阅读(45) 评论(0) 推荐(0)
摘要:transformer结构 几个疑问 1.梯度消失或者爆炸是什么? 梯度消失问题会导致网络无法更新权重,而梯度爆炸问题会导致权重更新过大,使训练不稳定。能举出例子吗? 2.掩码多头注意力怎么实现,具体怎么用?掩码是什么? 3.什么是过拟合,dropout为什么有用? 4.为什么在嵌入向量中每个元素乘 阅读全文
posted @ 2025-03-16 16:00 keepsoft123 阅读(50) 评论(0) 推荐(0)