会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
60
61
62
63
64
65
66
67
68
···
147
下一页
2024年3月30日
Quiet-STaR:让语言模型在“说话”前思考
摘要: 大型语言模型(llm)已经变得越来越复杂,能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题,与人类不同LLM经常在推理中涉及的隐含步骤中挣扎,这回导致输出可能在事实上不正确或缺乏逻辑。 考虑以下场景:正在阅读一个复杂的数学证明。虽然最终的答案可能很清楚,但关键在于理解初始条
阅读全文
posted @ 2024-03-30 19:40 deephub
阅读(165)
评论(0)
推荐(0)
2024年3月29日
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
摘要: 由于Mixtral的发布,专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的,但最近出现了另一种创建MoE的方法:Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges,以区别于预
阅读全文
posted @ 2024-03-29 11:57 deephub
阅读(113)
评论(0)
推荐(0)
2024年3月28日
如何开始定制你自己的大型语言模型
摘要: 2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢? 首先你需要有硬件的资源,对于硬件来说有2个路径可以选。高性能和低性能,这里的区别就是是功率,因为精度和消息长度直接与参数计数和GPU功率成比例。
阅读全文
posted @ 2024-03-28 11:21 deephub
阅读(55)
评论(0)
推荐(0)
2024年3月27日
Chronos: 将时间序列作为一种语言进行学习
摘要: 这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。 Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过高斯过
阅读全文
posted @ 2024-03-27 11:05 deephub
阅读(161)
评论(0)
推荐(0)
2024年3月25日
使用GaLore在本地GPU进行高效的LLM调优
摘要: 训练大型语言模型(llm),即使是那些“只有”70亿个参数的模型,也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(LoRA)等参数高效方法,可以在消费级gpu上对大量模型进行微调。 GaLore是一种新的方法,它不是通过直接减少参
阅读全文
posted @ 2024-03-25 10:01 deephub
阅读(121)
评论(0)
推荐(0)
2024年3月24日
8个常见的数据可视化错误以及如何避免它们
摘要: 在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例,并提供如何避免这些错误的建议。 本文总结了8个数据可视化的典型错误,在日常工作中我们应该尽量避免,这样才可以制作出更好的可视
阅读全文
posted @ 2024-03-24 10:13 deephub
阅读(95)
评论(0)
推荐(0)
2024年3月23日
BurstAttention:可对非常长的序列进行高效的分布式注意力计算
摘要: 提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。 FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态,而不是依赖于高带宽存储器(HBM)来提高注意力计算
阅读全文
posted @ 2024-03-23 13:21 deephub
阅读(60)
评论(0)
推荐(0)
2024年3月22日
文生图的基石CLIP模型的发展综述
摘要: CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的
阅读全文
posted @ 2024-03-22 11:31 deephub
阅读(400)
评论(0)
推荐(0)
2024年3月21日
Moment:又一个开源的时间序列基础模型
摘要: 时间序列分析跨越了一系列广泛的应用,从天气预报到通过心电图进行健康监测。 但是由于缺乏大型且整合的公开时间序列数据,所以在时间序列数据上预训练大型模型具有挑战性。为了应对这些挑战,MOMENT团队整理了一个庞大而多样的公共时间序列集合,作者将其称为Time-series Pile。代码地址我们会在文
阅读全文
posted @ 2024-03-21 10:19 deephub
阅读(185)
评论(0)
推荐(0)
2024年3月20日
多项式朴素贝叶斯分类器
摘要: 在这篇文章中,我们介绍多项式朴素贝叶斯分类器是如何工作的,然后使用scikit-learn作为实际工作的示例来介绍如何使用。 与假设高斯分布的高斯朴素贝叶斯分类器相反,多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类的多项概率来“拟合”多项式分类器-使用平滑技巧来处理空特征。Multino
阅读全文
posted @ 2024-03-20 10:52 deephub
阅读(101)
评论(0)
推荐(0)
上一页
1
···
60
61
62
63
64
65
66
67
68
···
147
下一页
公告