deephub

2024年3月19日

摘要： Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。这时我们就想到了QLoRA，它将模型大小除以4，同时通过仅调整LoRA适配阅读全文

posted @ 2024-03-19 09:38 deephub 阅读(111) 评论(0) 推荐(0)

2024年3月18日

2024年3月的计算机视觉论文推荐

摘要：从去年开始，针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究，包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。我们今天来总结一下2024年3月上半月份发表的最重要的论文，无论您是研究人员、从业者还是爱阅读全文

posted @ 2024-03-18 18:19 deephub 阅读(149) 评论(0) 推荐(0)

2024年3月17日

时间序列预测的零样本学习是未来还是炒作：TimeGPT和TiDE的综合比较

摘要：最近时间序列预测预测领域的最新进展受到了各个领域（包括文本、图像和语音）成功开发基础模型的影响，例如文本（如ChatGPT）、文本到图像（如Midjourney）和文本到语音（如Eleven Labs）。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现，这些模型利用了类似于它们在文本、阅读全文

posted @ 2024-03-17 11:05 deephub 阅读(92) 评论(0) 推荐(0)

微调大型语言模型进行命名实体识别

摘要：大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练，能够对输入的文本进行分析，并生成符合语法和语境的回复。这种模型可以用于各种任务，包括问答系统、对话机器人、文本生成、翻译等。命名实体识别（Named Entity Recognition，简称NER）是一种常见的应用方法，可阅读全文

posted @ 2024-03-17 11:05 deephub 阅读(157) 评论(0) 推荐(0)

2024年3月15日

LoRA及其变体概述：LoRA, DoRA, AdaLoRA, Delta-LoRA

摘要： LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中，我们将解释LoRA本身的基本概念，然后介绍一些以不同的方式改进LoRA的功能的变体，包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。 Lor 阅读全文

posted @ 2024-03-15 12:13 deephub 阅读(427) 评论(0) 推荐(0)

2024年3月14日

MADQN：多代理合作强化学习

摘要：处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置及其阅读全文

posted @ 2024-03-14 11:33 deephub 阅读(339) 评论(0) 推荐(0)

2024年3月13日

2024年3月最新的深度学习论文推荐

摘要：现在已经是3月中旬了，我们这次推荐一些2月和3月发布的论文。 Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning. https://arxiv.org/abs/24 阅读全文

posted @ 2024-03-13 10:43 deephub 阅读(127) 评论(0) 推荐(0)

2024年3月12日

傅里叶变换算法和Python代码实现

摘要：傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为 f̂，是由以下复值函数给出：同阅读全文

posted @ 2024-03-12 10:10 deephub 阅读(53) 评论(0) 推荐(0)

2024年3月11日

从16-bit 到 1.58-bit ：大模型内存效率和准确性之间的最佳权衡

摘要：通过量化可以减少大型语言模型的大小，但是量化是不准确的，因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度，而较小的llm则很难精确量化。什么时候使用一个小的LLM比量化一个大的LLM更好? 在本文中，我们将通过使用GPTQ对Mistral 7B、Llama 27 阅读全文

posted @ 2024-03-11 11:06 deephub 阅读(91) 评论(0) 推荐(0)

2024年3月10日

Nomic Embed：能够复现的SOTA开源嵌入模型

摘要： Nomic-embed-text是2月份刚发布的，并且是一个完全开源的英文文本嵌入模型，上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型，如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。模型、训练阅读全文

posted @ 2024-03-10 10:27 deephub 阅读(468) 评论(0) 推荐(0)

overfit深度学习

公告