上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 147 下一页
摘要: Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。 这时我们就想到了QLoRA,它将模型大小除以4,同时通过仅调整LoRA适配 阅读全文
posted @ 2024-03-19 09:38 deephub 阅读(111) 评论(0) 推荐(0)
摘要: 从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。 我们今天来总结一下2024年3月上半月份发表的最重要的论文,无论您是研究人员、从业者还是爱 阅读全文
posted @ 2024-03-18 18:19 deephub 阅读(149) 评论(0) 推荐(0)
摘要: 最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、 阅读全文
posted @ 2024-03-17 11:05 deephub 阅读(92) 评论(0) 推荐(0)
摘要: 大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练,能够对输入的文本进行分析,并生成符合语法和语境的回复。这种模型可以用于各种任务,包括问答系统、对话机器人、文本生成、翻译等。 命名实体识别(Named Entity Recognition,简称NER)是一种常见的应用方法,可 阅读全文
posted @ 2024-03-17 11:05 deephub 阅读(157) 评论(0) 推荐(0)
摘要: LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中,我们将解释LoRA本身的基本概念,然后介绍一些以不同的方式改进LoRA的功能的变体,包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。 Lor 阅读全文
posted @ 2024-03-15 12:13 deephub 阅读(427) 评论(0) 推荐(0)
摘要: 处理单一任务是强化学习的基础,它的目标是在不确定的环境中采取最佳行动,产生相对于任务的最大长期回报。但是在多代理强化学习中,因为存在多个代理,所以代理之间的关系可以是合作的,也可以是对抗,或者两者的混合。多代理的强化学习引入了更多的复杂性,每个代理的状态不仅包括对自身的观察,还包括对其他代理位置及其 阅读全文
posted @ 2024-03-14 11:33 deephub 阅读(339) 评论(0) 推荐(0)
摘要: 现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。 Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning. https://arxiv.org/abs/24 阅读全文
posted @ 2024-03-13 10:43 deephub 阅读(127) 评论(0) 推荐(0)
摘要: 傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。 我们使用以下定义来表示傅立叶变换及其逆变换。 设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换,记为 f̂,是由以下复值函数给出: 同 阅读全文
posted @ 2024-03-12 10:10 deephub 阅读(53) 评论(0) 推荐(0)
摘要: 通过量化可以减少大型语言模型的大小,但是量化是不准确的,因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度,而较小的llm则很难精确量化。 什么时候使用一个小的LLM比量化一个大的LLM更好? 在本文中,我们将通过使用GPTQ对Mistral 7B、Llama 27 阅读全文
posted @ 2024-03-11 11:06 deephub 阅读(91) 评论(0) 推荐(0)
摘要: Nomic-embed-text是2月份刚发布的,并且是一个完全开源的英文文本嵌入模型,上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型,如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。 模型、训练 阅读全文
posted @ 2024-03-10 10:27 deephub 阅读(468) 评论(0) 推荐(0)
上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 147 下一页