会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
79
80
81
82
83
84
85
86
87
···
144
下一页
2023年7月30日
因子分解机介绍和PyTorch代码实现
摘要: 因子分解机(Factorization Machines,简称FM)是一种用于解决推荐系统、回归和分类等机器学习任务的模型。它由Steffen Rendle于2010年提出,是一种基于线性模型的扩展方法,能够有效地处理高维稀疏数据,并且在处理特征组合时表现出色。它是推荐系统的经典模型之一,并且模型简
阅读全文
posted @ 2023-07-30 11:21 deephub
阅读(105)
评论(0)
推荐(0)
2023年7月29日
Meta-Transformer 多模态学习的统一框架
摘要: Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据,虽然各种数据之间存在固有的差距,但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征,不需要配对的多模态训练
阅读全文
posted @ 2023-07-29 11:17 deephub
阅读(118)
评论(0)
推荐(0)
2023年7月28日
图注意力网络论文详解和PyTorch实现
摘要: 图神经网络(gnn)是一类功能强大的神经网络,它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。 消息(嵌入)通过多个GNN层在图中的节点之间传递。每个节点聚合来自其邻居的消息以更新其表示。这个过程跨层重复,允许节点获得编码
阅读全文
posted @ 2023-07-28 12:59 deephub
阅读(134)
评论(0)
推荐(0)
2023年7月27日
DeepSpeed-MoE:训练更大及更复杂的混合专家网络
摘要: 这是微软发布在2022 ICML的论文,MoE可以降低训练成本,但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE:它包括新颖的MoE架构设计和模型压缩技术,可将MoE模型大小减少3.7倍;通过高度优化的推理系统,减少了7.3
阅读全文
posted @ 2023-07-27 09:56 deephub
阅读(167)
评论(0)
推荐(0)
2023年7月26日
2023年发布的25个开源大型语言模型总结
摘要: 大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。 今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以
阅读全文
posted @ 2023-07-26 10:07 deephub
阅读(205)
评论(0)
推荐(0)
2023年7月25日
Python 3.11的10个使代码更加高效的新特性
摘要: 性能有巨大的提升是Python 3.11的一个重要的改进,除此以外Python 3.11还有增加了许多新的特性。在本文中我们将介绍Python 3.11新特性,通过代码示例演示这些技巧如何提高生产力并优化代码。 https://avoid.overfit.cn/post/106aea11d69946
阅读全文
posted @ 2023-07-25 09:40 deephub
阅读(80)
评论(0)
推荐(0)
2023年7月24日
LLM-Blender:大语言模型也可以进行集成学习
摘要: 最近在看arxiv的时候发现了一个有意思的框架:LLM-Blender,它可以使用Ensemble 的方法来对大语言模型进行集成。 官方介绍如下:LLM-Blender是一个集成框架,可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。 LLM集成 我们都知道集成学习是一种
阅读全文
posted @ 2023-07-24 09:30 deephub
阅读(103)
评论(0)
推荐(0)
2023年7月23日
Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%
摘要: Stable Diffusion是一种基于扩散模型的图像生成技术,能够从文本生成高质量的图像,适用于CG,插图和高分辨率壁纸等领域。 但是它计算过程复杂,使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本文
阅读全文
posted @ 2023-07-23 09:45 deephub
阅读(516)
评论(0)
推荐(0)
2023年7月22日
使用QLoRa微调Llama 2
摘要: 上篇文章我们介绍了Llama 2的量化和部署,本篇文章将介绍使用PEFT库和QLoRa方法对Llama 27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。只有可以对数据进行微调我们才可以将这种大模型进行符合我们数据集的定制化。 https://avoid.overfit.cn/po
阅读全文
posted @ 2023-07-22 09:51 deephub
阅读(239)
评论(0)
推荐(0)
2023年7月21日
使用Cleanlab、PCA和Procrustes可视化ViT微调
摘要: 与传统的卷积神经网络不同,vit使用最初设计用于自然语言处理任务的Transformers 架构来处理图像。微调这些模型以获得最佳性能可能是一个复杂的过程。 下面是使用动画演示了在微调过程中嵌入的变化。这是通过对嵌入执行主成分分析(PCA)来实现的。这些嵌入是从处于不同微调阶段的模型及其相应的检查点
阅读全文
posted @ 2023-07-21 09:29 deephub
阅读(48)
评论(0)
推荐(0)
上一页
1
···
79
80
81
82
83
84
85
86
87
···
144
下一页
公告