会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
61
62
63
64
65
66
67
68
69
···
154
下一页
2024年5月30日
通过强化学习策略进行特征选择
摘要: 特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征,可以提高性能。 如果我们处理的是高维数据集,那么选择特征就显得尤为重要。它使模型能够更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。 在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我
阅读全文
posted @ 2024-05-30 11:03 deephub
阅读(102)
评论(0)
推荐(0)
2024年5月29日
微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉
摘要: 大型语言模型(llm)是在巨大的文本语料库上训练的,在那里他们获得了大量的事实知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在培训结束时被“具体化”。在预训练结束时,模型实际上停止学习。 对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的
阅读全文
posted @ 2024-05-29 10:49 deephub
阅读(51)
评论(0)
推荐(0)
2024年5月27日
SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增
摘要: Transformers 已经确立了自己作为首要模型架构的地位,特别是因为它们在各种任务中的出色表现。但是Transformers 的内存密集型性质和随着词元数量的指数扩展推理成本带来了重大挑战。为了解决这些问题,论文“Linearizing Large Language Models”引入了一种创
阅读全文
posted @ 2024-05-27 11:34 deephub
阅读(55)
评论(0)
推荐(0)
2024年5月26日
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
摘要: 前一篇文章总结了关于计算机视觉方面的论文,这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。 大型语言模型(llm)发展迅速,跟上这些领域新颖的研究将有助于引导模型的持续进步,这些模型更有能力,
阅读全文
posted @ 2024-05-26 10:39 deephub
阅读(158)
评论(0)
推荐(0)
2024年5月25日
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
摘要: 我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。 Diffusion Models 1、Dual3D: Efficient and Consistent Text-to-3D
阅读全文
posted @ 2024-05-25 10:28 deephub
阅读(104)
评论(0)
推荐(0)
2024年5月24日
使用FP8加速PyTorch训练的两种方法总结
摘要: 在PyTorch中,FP8(8-bit 浮点数)是一个较新的数据类型,用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用,并加快计算速度,同时尽量保持训练和推理的准确性。虽然PyTorch官方在标准发布中尚未全面支持FP8,但是在2.2版本中PyTorch已经包含了对FP8的“
阅读全文
posted @ 2024-05-24 10:49 deephub
阅读(279)
评论(0)
推荐(0)
2024年5月23日
MambaOut:状态空间模型并不适合图像的分类任务
摘要: 该论文探讨了Mamba架构(包含状态空间模型SSM)是否有必要用于视觉任务,如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果,认为其不如传统的卷积和注意力模型。 论文理论化认为Mamba更适合具有长序列和自回归特性的任务,而这些特性大多数视觉任务不具备。并进行了一下的
阅读全文
posted @ 2024-05-23 10:00 deephub
阅读(112)
评论(0)
推荐(0)
2024年5月22日
整合LlamaIndex与LangChain构建高级的查询处理系统
摘要: 构建大型语言模型应用程序可能会颇具挑战,尤其是当我们在不同的框架(如Langchain和LlamaIndex)之间进行选择时。LlamaIndex在智能搜索和数据检索方面的性能令人瞩目,而LangChain则作为一个更加通用的应用程序框架,提供了更好的与各种平台的兼容性。 本篇文章将介绍如何将Lla
阅读全文
posted @ 2024-05-22 12:25 deephub
阅读(153)
评论(0)
推荐(0)
2024年5月20日
深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解
摘要: xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。 xLSTM xLSTM 是对传统 LSTM 的一种扩展,它通过引入新的门控机制和记忆结构
阅读全文
posted @ 2024-05-20 09:48 deephub
阅读(790)
评论(0)
推荐(0)
2024年5月19日
DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度
摘要: 这篇论文提出了一种高稀疏性基础大型语言模型(LLMs)的新方法,通过有效的预训练和部署,实现了模型在保持高准确度的同时,显著提升了处理速度。 https://avoid.overfit.cn/post/06961c02a12b48a6a3e1436b527fd2b7
阅读全文
posted @ 2024-05-19 09:49 deephub
阅读(69)
评论(0)
推荐(0)
上一页
1
···
61
62
63
64
65
66
67
68
69
···
154
下一页
公告