会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
79
80
81
82
83
84
85
86
87
···
154
下一页
2023年11月20日
Chain-Of-Note:解决噪声数据、不相关文档和域外场景来改进RAG的表现
摘要: CoN要点 CoN框架由三种不同的类型组成,研究称之为阅读笔记。 上面的图像,类型(A)显示了检索到的数据或文档回答查询的位置。LLM仅使用NLG从提供的数据中格式化答案。 https://avoid.overfit.cn/post/1a108bbaf6c84b5fbc51554fefa222cd
阅读全文
posted @ 2023-11-20 09:27 deephub
阅读(46)
评论(0)
推荐(0)
2023年11月17日
使用FP8加速PyTorch训练
摘要: 现代的人工智能硬件架构(例如,Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中,FP8张量内核能够显著提高每秒浮点运算(FLOPS),以及为人工智能训练和推理工作负载提供内存优化和节能的机会。 在这篇文章中,我们将介绍如何修改PyTorch训练脚本
阅读全文
posted @ 2023-11-17 09:40 deephub
阅读(160)
评论(0)
推荐(0)
2023年11月16日
大语言模型量化方法对比:GPTQ、GGUF、AWQ
摘要: 在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。 说明:每次加载LLM示例后,建议清除缓存,以防止出现OutOfMemory错误。 del model, tokenizer, pipe import torc
阅读全文
posted @ 2023-11-16 10:59 deephub
阅读(1090)
评论(0)
推荐(0)
2023年11月15日
sMLP:稀疏全mlp进行高效语言建模
摘要: 这是一篇2022由纽约州立大学布法罗分校和Meta AI发布的论文,它主要的观点如下: 具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明,所有mlp都可以在语言建模方面与transformer相匹配,但在下游任务方面仍然落后。所以论文提出了s
阅读全文
posted @ 2023-11-15 09:32 deephub
阅读(81)
评论(0)
推荐(0)
2023年11月14日
神经网络中的量化与蒸馏
摘要: 本文将深入研究深度学习中精简模型的技术:量化和蒸馏 深度学习模型,特别是那些具有大量参数的模型,在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术,量化和蒸馏,它们都是可以使模型更加轻量级,而不会对性能造成太大影响。但是它们需要什么,它们又如何比较呢? 量化:牺牲精度换取效率 量化是关
阅读全文
posted @ 2023-11-14 10:08 deephub
阅读(83)
评论(0)
推荐(0)
2023年11月13日
无监督学习的集成方法:相似性矩阵的聚类
摘要: 在机器学习中,术语Ensemble指的是并行组合多个模型,这个想法是利用群体的智慧,在给出的最终答案上形成更好的共识。 这种类型的方法已经在监督学习领域得到了广泛的研究和应用,特别是在分类问题上,像RandomForest这样非常成功的算法。通常应用一些投票/加权系统,将每个单独模型的输出组合成最终
阅读全文
posted @ 2023-11-13 09:45 deephub
阅读(103)
评论(0)
推荐(0)
2023年11月12日
XoT:一种新的大语言模型的提示技术
摘要: 这是微软在11月最新发布的一篇论文,题为“Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation”,介绍了一种名为XOT的提示技术,它增强了像GPT-3和GPT-4这样的大型语言模型(llm
阅读全文
posted @ 2023-11-12 09:34 deephub
阅读(156)
评论(0)
推荐(0)
2023年11月11日
LoRAShear:微软在LLM修剪和知识恢复方面的最新研究
摘要: LoRAShear是微软为优化语言模型模型(llm)和保存知识而开发的一种新方法。它可以进行结构性修剪,减少计算需求并提高效率。 LHSPG技术( Lora Half-Space Projected Gradient)支持渐进式结构化剪枝和动态知识恢复。可以通过依赖图分析和稀疏度优化应用于各种llm
阅读全文
posted @ 2023-11-11 11:16 deephub
阅读(66)
评论(0)
推荐(0)
2023年11月10日
线性回归,核技巧和线性核
摘要: 在这篇文章中,我想展示一个有趣的结果:线性回归与无正则化的线性核ridge回归是等 价的。 这里实际上涉及到很多概念和技术,所以我们将逐一介绍,最后用它们来解释这个说法。 首先我们回顾经典的线性回归。然后我将解释什么是核函数和线性核函数,最后我们将给出上面表述的数学证明。 https://avoid
阅读全文
posted @ 2023-11-10 09:52 deephub
阅读(54)
评论(0)
推荐(0)
2023年11月9日
使用递归图 recurrence plot 表征时间序列
摘要: 在本文中,我将展示如何使用递归图 Recurrence Plots 来描述不同类型的时间序列。我们将查看具有500个数据点的各种模拟时间序列。我们可以通过可视化时间序列的递归图并将其与其他已知的不同时间序列的递归图进行比较,从而直观地表征时间序列。 递归图 Recurrence Plots(RP)是
阅读全文
posted @ 2023-11-09 14:57 deephub
阅读(379)
评论(0)
推荐(0)
上一页
1
···
79
80
81
82
83
84
85
86
87
···
154
下一页
公告