deephub

2024年3月30日

摘要：大型语言模型(llm)已经变得越来越复杂，能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题，与人类不同LLM经常在推理中涉及的隐含步骤中挣扎，这回导致输出可能在事实上不正确或缺乏逻辑。考虑以下场景:正在阅读一个复杂的数学证明。虽然最终的答案可能很清楚，但关键在于理解初始条阅读全文

posted @ 2024-03-30 19:40 deephub 阅读(165) 评论(0) 推荐(0)

2024年3月29日

使用MergeKit创建自己的专家混合模型：将多个模型组合成单个MoE

摘要：由于Mixtral的发布，专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的，但最近出现了另一种创建MoE的方法：Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges，以区别于预阅读全文

posted @ 2024-03-29 11:57 deephub 阅读(113) 评论(0) 推荐(0)

2024年3月28日

如何开始定制你自己的大型语言模型

摘要： 2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？首先你需要有硬件的资源，对于硬件来说有2个路径可以选。高性能和低性能，这里的区别就是是功率，因为精度和消息长度直接与参数计数和GPU功率成比例。阅读全文

posted @ 2024-03-28 11:21 deephub 阅读(55) 评论(0) 推荐(0)

2024年3月27日

Chronos: 将时间序列作为一种语言进行学习

摘要：这是一篇非常有意思的论文，它将时间序列分块并作为语言模型中的一个token来进行学习，并且得到了很好的效果。 Chronos是一个对时间序列数据的概率模型进行预训练的框架，它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表，并在通过高斯过阅读全文

posted @ 2024-03-27 11:05 deephub 阅读(161) 评论(0) 推荐(0)

2024年3月25日

使用GaLore在本地GPU进行高效的LLM调优

摘要：训练大型语言模型(llm)，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(LoRA)等参数高效方法，可以在消费级gpu上对大量模型进行微调。 GaLore是一种新的方法，它不是通过直接减少参阅读全文

posted @ 2024-03-25 10:01 deephub 阅读(121) 评论(0) 推荐(0)

2024年3月24日

8个常见的数据可视化错误以及如何避免它们

摘要：在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例，并提供如何避免这些错误的建议。本文总结了8个数据可视化的典型错误，在日常工作中我们应该尽量避免，这样才可以制作出更好的可视阅读全文

posted @ 2024-03-24 10:13 deephub 阅读(95) 评论(0) 推荐(0)

2024年3月23日

BurstAttention:可对非常长的序列进行高效的分布式注意力计算

摘要：提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力，如FlashAttention，以及利用多设备的分布式系统，如RingAttention。 FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态，而不是依赖于高带宽存储器(HBM)来提高注意力计算阅读全文

posted @ 2024-03-23 13:21 deephub 阅读(60) 评论(0) 推荐(0)

2024年3月22日

文生图的基石CLIP模型的发展综述

摘要： CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的阅读全文

posted @ 2024-03-22 11:31 deephub 阅读(400) 评论(0) 推荐(0)

2024年3月21日

Moment:又一个开源的时间序列基础模型

摘要：时间序列分析跨越了一系列广泛的应用，从天气预报到通过心电图进行健康监测。但是由于缺乏大型且整合的公开时间序列数据，所以在时间序列数据上预训练大型模型具有挑战性。为了应对这些挑战，MOMENT团队整理了一个庞大而多样的公共时间序列集合，作者将其称为Time-series Pile。代码地址我们会在文阅读全文

posted @ 2024-03-21 10:19 deephub 阅读(185) 评论(0) 推荐(0)

2024年3月20日

多项式朴素贝叶斯分类器

摘要：在这篇文章中，我们介绍多项式朴素贝叶斯分类器是如何工作的，然后使用scikit-learn作为实际工作的示例来介绍如何使用。与假设高斯分布的高斯朴素贝叶斯分类器相反，多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类的多项概率来“拟合”多项式分类器-使用平滑技巧来处理空特征。Multino 阅读全文

posted @ 2024-03-20 10:52 deephub 阅读(101) 评论(0) 推荐(0)

overfit深度学习

公告