大语言模型 - 文章分类 - keepsoft123

LLM-3 微调

摘要：指令微调（核心思想是执行特定任务时，只有一小部分参数起作用。）主成分分析和压缩感知是什么？（1）明确任务的指令或提示。（2）整理数据为指令和响应。（3）对预训练模型进行微调。构建微调数据集的四种方法（1）手动：网页收集：InstructionWild v2，LCCC 真人专门构建：D 阅读全文

posted @ 2025-04-21 14:10 keepsoft123 阅读(58) 评论(0) 推荐(0)

LLM-2 大语言模型结构LLaMA

摘要：手撕环节 1.手撕rope 疑问：为什么现在大多数大语言模型采用仅有解码器组成的网络结构？出现灾难遗忘怎么处理？可采用弹性权重固定和记忆增强的方法弹性权重固定：是根据参数的更新程度来调整学习率，防止大幅度更新参数，导致灾难遗忘。通俗一点就是，防止你学的太多。记忆增强（rag？）：给大语言模阅读全文

posted @ 2025-03-24 16:39 keepsoft123 阅读(45) 评论(0) 推荐(0)

LLM-1 transformer

摘要：transformer结构几个疑问 1.梯度消失或者爆炸是什么？梯度消失问题会导致网络无法更新权重，而梯度爆炸问题会导致权重更新过大，使训练不稳定。能举出例子吗？ 2.掩码多头注意力怎么实现，具体怎么用？掩码是什么？ 3.什么是过拟合，dropout为什么有用？ 4.为什么在嵌入向量中每个元素乘阅读全文

posted @ 2025-03-16 16:00 keepsoft123 阅读(50) 评论(0) 推荐(0)

dingliang123

文章分类 - 大语言模型

公告