上一页 1 ··· 64 65 66 67 68 69 70 71 72 ··· 139 下一页
摘要: 量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中,GPTQ在gpu上提供了惊人的性能。与非量化模型相比,该方法使用的VRAM几乎减少了3倍,同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从GPTQ中挤出更多性能的库。由于新的内核,它还经 阅读全文
posted @ 2023-11-22 10:16 deephub 阅读(235) 评论(0) 推荐(0)
摘要: 今天也来凑个热闹,说说OpenAI的事。本来不想写的,但是看到自媒体又开始胡说八道,所以根据我自己得到的消息和理解说一说我的看法,这篇文章要是有个小姐姐解说录成视频,那肯定火了,但是我现在没资源,人也懒,所以就直接码字吧。 1、奥特曼突然被解雇 奥特曼前天还在APEC会议上还在演讲,第二天就宣布被解 阅读全文
posted @ 2023-11-21 11:31 deephub 阅读(71) 评论(0) 推荐(0)
摘要: CoN要点 CoN框架由三种不同的类型组成,研究称之为阅读笔记。 上面的图像,类型(A)显示了检索到的数据或文档回答查询的位置。LLM仅使用NLG从提供的数据中格式化答案。 https://avoid.overfit.cn/post/1a108bbaf6c84b5fbc51554fefa222cd 阅读全文
posted @ 2023-11-20 09:27 deephub 阅读(39) 评论(0) 推荐(0)
摘要: 现代的人工智能硬件架构(例如,Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中,FP8张量内核能够显著提高每秒浮点运算(FLOPS),以及为人工智能训练和推理工作负载提供内存优化和节能的机会。 在这篇文章中,我们将介绍如何修改PyTorch训练脚本 阅读全文
posted @ 2023-11-17 09:40 deephub 阅读(139) 评论(0) 推荐(0)
摘要: 在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。 说明:每次加载LLM示例后,建议清除缓存,以防止出现OutOfMemory错误。 del model, tokenizer, pipe import torc 阅读全文
posted @ 2023-11-16 10:59 deephub 阅读(1012) 评论(0) 推荐(0)
摘要: 这是一篇2022由纽约州立大学布法罗分校和Meta AI发布的论文,它主要的观点如下: 具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明,所有mlp都可以在语言建模方面与transformer相匹配,但在下游任务方面仍然落后。所以论文提出了s 阅读全文
posted @ 2023-11-15 09:32 deephub 阅读(66) 评论(0) 推荐(0)
摘要: 本文将深入研究深度学习中精简模型的技术:量化和蒸馏 深度学习模型,特别是那些具有大量参数的模型,在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术,量化和蒸馏,它们都是可以使模型更加轻量级,而不会对性能造成太大影响。但是它们需要什么,它们又如何比较呢? 量化:牺牲精度换取效率 量化是关 阅读全文
posted @ 2023-11-14 10:08 deephub 阅读(65) 评论(0) 推荐(0)
摘要: 在机器学习中,术语Ensemble指的是并行组合多个模型,这个想法是利用群体的智慧,在给出的最终答案上形成更好的共识。 这种类型的方法已经在监督学习领域得到了广泛的研究和应用,特别是在分类问题上,像RandomForest这样非常成功的算法。通常应用一些投票/加权系统,将每个单独模型的输出组合成最终 阅读全文
posted @ 2023-11-13 09:45 deephub 阅读(84) 评论(0) 推荐(0)
摘要: 这是微软在11月最新发布的一篇论文,题为“Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation”,介绍了一种名为XOT的提示技术,它增强了像GPT-3和GPT-4这样的大型语言模型(llm 阅读全文
posted @ 2023-11-12 09:34 deephub 阅读(135) 评论(0) 推荐(0)
摘要: LoRAShear是微软为优化语言模型模型(llm)和保存知识而开发的一种新方法。它可以进行结构性修剪,减少计算需求并提高效率。 LHSPG技术( Lora Half-Space Projected Gradient)支持渐进式结构化剪枝和动态知识恢复。可以通过依赖图分析和稀疏度优化应用于各种llm 阅读全文
posted @ 2023-11-11 11:16 deephub 阅读(48) 评论(0) 推荐(0)
上一页 1 ··· 64 65 66 67 68 69 70 71 72 ··· 139 下一页