deephub

2024年5月24日

摘要：在PyTorch中，FP8（8-bit 浮点数）是一个较新的数据类型，用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用，并加快计算速度，同时尽量保持训练和推理的准确性。虽然PyTorch官方在标准发布中尚未全面支持FP8，但是在2.2版本中PyTorch已经包含了对FP8的“ 阅读全文

posted @ 2024-05-24 10:49 deephub 阅读(251) 评论(0) 推荐(0)

2024年5月23日

MambaOut：状态空间模型并不适合图像的分类任务

摘要：该论文探讨了Mamba架构（包含状态空间模型SSM）是否有必要用于视觉任务，如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果，认为其不如传统的卷积和注意力模型。论文理论化认为Mamba更适合具有长序列和自回归特性的任务，而这些特性大多数视觉任务不具备。并进行了一下的阅读全文

posted @ 2024-05-23 10:00 deephub 阅读(88) 评论(0) 推荐(0)

2024年5月22日

整合LlamaIndex与LangChain构建高级的查询处理系统

摘要：构建大型语言模型应用程序可能会颇具挑战，尤其是当我们在不同的框架（如Langchain和LlamaIndex）之间进行选择时。LlamaIndex在智能搜索和数据检索方面的性能令人瞩目，而LangChain则作为一个更加通用的应用程序框架，提供了更好的与各种平台的兼容性。本篇文章将介绍如何将Lla 阅读全文

posted @ 2024-05-22 12:25 deephub 阅读(98) 评论(0) 推荐(0)

2024年5月20日

深入解析xLSTM：LSTM架构的演进及PyTorch代码实现详解

摘要： xLSTM的新闻大家可能前几天都已经看过了，原作者提出更强的xLSTM，可以将LSTM扩展到数十亿参数规模，我们今天就来将其与原始的lstm进行一个详细的对比，然后再使用Pytorch实现一个简单的xLSTM。 xLSTM xLSTM 是对传统 LSTM 的一种扩展，它通过引入新的门控机制和记忆结构阅读全文

posted @ 2024-05-20 09:48 deephub 阅读(752) 评论(0) 推荐(0)

2024年5月19日

DeepSparse: 通过剪枝和稀疏预训练，在不损失精度的情况下减少70%的模型大小，提升三倍速度

摘要：这篇论文提出了一种高稀疏性基础大型语言模型（LLMs）的新方法，通过有效的预训练和部署，实现了模型在保持高准确度的同时，显著提升了处理速度。 https://avoid.overfit.cn/post/06961c02a12b48a6a3e1436b527fd2b7 阅读全文

posted @ 2024-05-19 09:49 deephub 阅读(61) 评论(0) 推荐(0)

2024年5月18日

扩散模型的多元化应用：药物发现、文本生成、时间序列预测等

摘要： AlphaFold3 是 DeepMind 开发的一款蛋白质结构预测软件，它在AlphaFold2的基础上进行了改进。其中最主要的一个改进就是引入了扩散模型，这使得扩散模型不仅仅可以应用于文生图，其实扩散模型早已经在各个领域中都又所发展，今天我们就来研究一下扩散模型的多元化应用。 https://a 阅读全文

posted @ 2024-05-18 10:49 deephub 阅读(40) 评论(0) 推荐(0)

2024年5月17日

图神经网络入门示例：使用PyTorch Geometric 进行节点分类

摘要：基于图的神经网络是强大的模型，可以学习网络中的复杂模式。在本文中，我们将介绍如何为同构图数据构造PyTorch Data对象，然后训练不同类型的神经网络来预测节点所属的类。这种类型的预测问题通常被称为节点分类。我们将使用来自Benedek Rozemberczki, Carl Allen和Rik 阅读全文

posted @ 2024-05-17 10:38 deephub 阅读(58) 评论(0) 推荐(0)

2024年5月16日

ATFNet：长时间序列预测的自适应时频集成网络

摘要： ATFNet是一个深度学习模型，它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。引入了一种新的加权机制来调整周期性的权重，增强了离散傅立叶变换，并包括一个复杂关系识别的注意力机制，在长期时间序列预测中优于当前方法(每个模型都这么说)。这是4月发布在arxiv上的论文，还包含了源代码。因为时阅读全文

posted @ 2024-05-16 10:47 deephub 阅读(172) 评论(0) 推荐(0)

2024年5月15日

时间序列预测:探索性数据分析和特征工程的实用指南

摘要：时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势，这一领域一直是企业非常感兴趣的领域。随着机器学习模型的不断进步，使除了传统的统计预测方法(如回归模型、ARIMA模型、指数平滑)外，与机器学习(如基于树的模型)和深度学习(如LSTM网络、阅读全文

posted @ 2024-05-15 10:59 deephub 阅读(85) 评论(0) 推荐(0)

2024年5月13日

Transformers 加速的一些常用技巧

摘要： Transformers 是一个强大的架构，但模型因其采用的自注意力机制，虽然能够有效地处理序列数据并捕获长距离依赖关系，但同时也容易导致在训练过程中出现OOM（Out of Memory，内存不足）或者达到GPU的运行时限制。主要是因为参数数量庞大：Transformer模型通常包含大量的参数阅读全文

posted @ 2024-05-13 10:12 deephub 阅读(41) 评论(0) 推荐(0)

overfit深度学习

公告