上一页 1 ··· 59 60 61 62 63 64 65 66 67 ··· 147 下一页
摘要: Moirai 是 Salesforce 开发的用于时间序列预测的基础模型。它被设计为一种通用模型,能够预测广泛的时间序列。为了实现这种灵活性,该模型解决了时间序列数据相关的几个挑战,包括: 处理各种数据频率(小时、日、周等); 适应任何数量和类型的协变量,无论它们在未来是否已知; 使用灵活的分布生成 阅读全文
posted @ 2024-04-14 11:33 deephub 阅读(399) 评论(0) 推荐(0)
摘要: 我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。 PiSSA和LoRA一样,都是基于这样的前提:对模型参数的改变会 阅读全文
posted @ 2024-04-12 11:43 deephub 阅读(189) 评论(0) 推荐(0)
摘要: 今天我们来总结以下大型语言模型面试中常问的问题 https://avoid.overfit.cn/post/5cbf407986584cfab3efd5ee3801b697 阅读全文
posted @ 2024-04-11 11:33 deephub 阅读(125) 评论(0) 推荐(0)
摘要: 在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。 推测解码是一种“先推测后验证” (Draft-then-Verify) 的解码算法,涉及并行运行两个 阅读全文
posted @ 2024-04-10 10:01 deephub 阅读(152) 评论(0) 推荐(0)
摘要: 本文将介绍大语言模型中使用的不同令牌遮蔽技术,并比较它们的优点,以及使用Pytorch实现以了解它们的底层工作原理。 令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用,并被用于许多变体(RoBERTa, ALBERT, DeBERTa… 阅读全文
posted @ 2024-04-09 11:33 deephub 阅读(47) 评论(0) 推荐(0)
摘要: 如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。 我们一个一个来介绍: ht 阅读全文
posted @ 2024-04-08 10:09 deephub 阅读(636) 评论(0) 推荐(0)
摘要: 归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, GroupNormalization)会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的,随着网络体系结构、批处理大小和特定任务 阅读全文
posted @ 2024-04-07 09:58 deephub 阅读(91) 评论(0) 推荐(0)
摘要: 分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。 这篇文章中,我们将解释GQA的思想以及如何将其转化为代码。 GQA是在论文 阅读全文
posted @ 2024-04-03 10:12 deephub 阅读(585) 评论(0) 推荐(0)
摘要: 自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE) 的引入,2022年标志着该领域的重大发展。 旋转位置嵌入是最先进的 NLP 位置 阅读全文
posted @ 2024-04-01 10:25 deephub 阅读(445) 评论(0) 推荐(0)
摘要: 这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。 语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers,它是llm和slm的构建模块。虽然tran 阅读全文
posted @ 2024-03-31 10:35 deephub 阅读(163) 评论(0) 推荐(0)
上一页 1 ··· 59 60 61 62 63 64 65 66 67 ··· 147 下一页