随笔分类 -  LLM

摘要:目录vLLMPagedAttention:解决内存瓶颈vLLM 的安装与使用 vLLM 加州大学伯克利分校的研究者开源了一个项目 vLLM,该项目主要用于快速 LLM 推理和服务。 vLLM 的核心是 PagedAttention,这是一种新颖的注意力算法,它将在操作系统的虚拟内存中分页的经典思想引 阅读全文
posted @ 2024-08-22 10:11 幻影星全能的木豆 阅读(368) 评论(1) 推荐(0)
摘要:目录LLM大模型训练加速利器FlashAttention详解一、FlashAttention1.1 硬件基础1.2 FlashAttention 核心思想1.3 计算前提1.4 FlashAttention 算法二、FlashAttention-22.1 硬件特性2.2 标准的注意力实现2.3 Fl 阅读全文
posted @ 2024-07-24 21:23 幻影星全能的木豆 阅读(1908) 评论(0) 推荐(1)
摘要:# 关于DeepSpeed的尝试 知乎博客地址: https://zhuanlan.zhihu.com/p/673359684 ## 参考 Repo:https://github.com/microsoft/DeepSpeedExamples https://github.com/microsoft 阅读全文
posted @ 2024-07-23 23:48 幻影星全能的木豆 阅读(347) 评论(0) 推荐(0)
摘要:Llama3 学习链接 https://blog.csdn.net/v_JULY_v/article/details/137955982 就不易理解的内容进一步剖析 对Llama系模型进行汇总 目录一、LLama11. LLama 1 简介2. 模型架构2.1 RMSNorm2.2 SwiGLU替代 阅读全文
posted @ 2024-07-19 22:04 幻影星全能的木豆 阅读(675) 评论(0) 推荐(0)
摘要:目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0 多模态LLM架构6.1 一阶段预训练6.2 二阶段微调6.2.1 构造图像-指令遵循数据集6.2.2 训练方式6.2.3 质量评估6.3 链接外部工具6.3.1 构造<指令, API>数据6. 阅读全文
posted @ 2024-07-18 23:04 幻影星全能的木豆 阅读(2349) 评论(0) 推荐(1)
摘要:学习链接 https://blog.csdn.net/v_JULY_v/article/details/135375799 目录从LongLoRA到LongQLoRA(含源码剖析):超长上下文大模型的高效微调方法第一部分 LongLora:超长上下文大模型的高效微调方法1.1 从PI、LoRA到Lo 阅读全文
posted @ 2024-07-18 14:19 幻影星全能的木豆 阅读(549) 评论(0) 推荐(0)
摘要:目录第一部分 背景知识:从进制表示谈到直接外推、线性内插、进制转换1.1 从进制表示到直接外推1.1.1 进制表示1.1.2 直接外推1.2 从线性内插到进制转换1.2.1 线性内插1.2.2 进制转换第二部分 从RoPE、直接外推到位置内插Position Interpolation2.1 旋转位 阅读全文
posted @ 2024-07-18 11:40 幻影星全能的木豆 阅读(4055) 评论(0) 推荐(3)
摘要:RoPE 流程总结 & RoPE介绍 通过绝对位置编码起到相对位置编码的效果,寻找一个函数\(f, g\),使得 \(<f_{q}\left(x_{m}, m\right), f_{k}\left(x_{n}, n\right)>=g\left(x_{m}, x_{n}, m-n\right)\) 阅读全文
posted @ 2024-07-17 15:53 幻影星全能的木豆 阅读(1666) 评论(0) 推荐(0)
摘要:目录其他注意力过拟合的表现有哪些?BN 训练和测试的区别在哪里?梯度下降的公式?反向传播优化器 & Adam均方误差损失交叉熵损失梯度消失问题梯度爆炸问题权重正则化过拟合分词器BERT掩码语言建模 (MLM)下一个句子预测 Next Sentence Prediction(NSP)BERT微调BER 阅读全文
posted @ 2024-07-15 19:15 幻影星全能的木豆 阅读(286) 评论(1) 推荐(1)