会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
66
67
68
69
70
71
72
73
74
···
154
下一页
2024年4月3日
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
摘要: 分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。 这篇文章中,我们将解释GQA的思想以及如何将其转化为代码。 GQA是在论文
阅读全文
posted @ 2024-04-03 10:12 deephub
阅读(614)
评论(0)
推荐(0)
2024年4月1日
大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?
摘要: 自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE) 的引入,2022年标志着该领域的重大发展。 旋转位置嵌入是最先进的 NLP 位置
阅读全文
posted @ 2024-04-01 10:25 deephub
阅读(476)
评论(0)
推荐(0)
2024年3月31日
SiMBA:基于Mamba的跨图像和多元时间序列的预测模型
摘要: 这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。 语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers,它是llm和slm的构建模块。虽然tran
阅读全文
posted @ 2024-03-31 10:35 deephub
阅读(173)
评论(0)
推荐(0)
2024年3月30日
Quiet-STaR:让语言模型在“说话”前思考
摘要: 大型语言模型(llm)已经变得越来越复杂,能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题,与人类不同LLM经常在推理中涉及的隐含步骤中挣扎,这回导致输出可能在事实上不正确或缺乏逻辑。 考虑以下场景:正在阅读一个复杂的数学证明。虽然最终的答案可能很清楚,但关键在于理解初始条
阅读全文
posted @ 2024-03-30 19:40 deephub
阅读(173)
评论(0)
推荐(0)
2024年3月29日
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
摘要: 由于Mixtral的发布,专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的,但最近出现了另一种创建MoE的方法:Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges,以区别于预
阅读全文
posted @ 2024-03-29 11:57 deephub
阅读(124)
评论(0)
推荐(0)
2024年3月28日
如何开始定制你自己的大型语言模型
摘要: 2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢? 首先你需要有硬件的资源,对于硬件来说有2个路径可以选。高性能和低性能,这里的区别就是是功率,因为精度和消息长度直接与参数计数和GPU功率成比例。
阅读全文
posted @ 2024-03-28 11:21 deephub
阅读(66)
评论(0)
推荐(0)
2024年3月27日
Chronos: 将时间序列作为一种语言进行学习
摘要: 这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。 Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过高斯过
阅读全文
posted @ 2024-03-27 11:05 deephub
阅读(176)
评论(0)
推荐(0)
2024年3月25日
使用GaLore在本地GPU进行高效的LLM调优
摘要: 训练大型语言模型(llm),即使是那些“只有”70亿个参数的模型,也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(LoRA)等参数高效方法,可以在消费级gpu上对大量模型进行微调。 GaLore是一种新的方法,它不是通过直接减少参
阅读全文
posted @ 2024-03-25 10:01 deephub
阅读(134)
评论(0)
推荐(0)
2024年3月24日
8个常见的数据可视化错误以及如何避免它们
摘要: 在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例,并提供如何避免这些错误的建议。 本文总结了8个数据可视化的典型错误,在日常工作中我们应该尽量避免,这样才可以制作出更好的可视
阅读全文
posted @ 2024-03-24 10:13 deephub
阅读(110)
评论(0)
推荐(0)
2024年3月23日
BurstAttention:可对非常长的序列进行高效的分布式注意力计算
摘要: 提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。 FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态,而不是依赖于高带宽存储器(HBM)来提高注意力计算
阅读全文
posted @ 2024-03-23 13:21 deephub
阅读(69)
评论(0)
推荐(0)
上一页
1
···
66
67
68
69
70
71
72
73
74
···
154
下一页
公告