deephub

2024年1月29日

摘要：核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。核模型高斯过程是机器学习和统计学中对传统高斯过程的一种扩展。要理解kmgp，首先掌握高斯过程的基础知识，然后了解核模型是如阅读全文

posted @ 2024-01-29 10:12 deephub 阅读(50) 评论(0) 推荐(0)

2024年1月28日

2024年1月的论文推荐

摘要：又到月底了，在月初推荐论文的基础上又整理了10篇推荐阅读的论文 1、MosaicBERT https://mosaicbert.github.io/ 一种用于快速预训练的双向编码器。MosaicBERT是针对快速预训练优化的自定义BERT架构。主要架构修改:FlashAttention, ALiBi 阅读全文

posted @ 2024-01-28 10:42 deephub 阅读(54) 评论(0) 推荐(0)

2024年1月27日

使用Transformer 模型进行时间序列预测的Pytorch代码示例

摘要：时间序列预测是一个经久不衰的主题，受自然语言处理领域的成功启发，transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。 https://avoid.overfit.cn/post/960767b198ac4d9f988fc 阅读全文

posted @ 2024-01-27 10:51 deephub 阅读(327) 评论(0) 推荐(0)

2024年1月26日

使用mergekit 合并大型语言模型

摘要：模型合并是近年来兴起的一种新技术。它允许将多个模型合并成一个模型。这样做不仅可以保持质量，还可以获得额外的好处。假设我们有几个模型:一个擅长解决数学问题，另一个擅长编写代码。在两种模型之间切换是一个很麻烦的问题，但是我们可以将它们组合起来，利用两者的优点。而且这种组合的方法可以不需要GPU来完成。阅读全文

posted @ 2024-01-26 09:46 deephub 阅读(95) 评论(0) 推荐(0)

2024年1月25日

Mistral AI vs. Meta:顶级开源LLM比较

摘要：为了提高性能，大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标，但是模型大小的增加也增加了计算成本和推理延迟，增加了在实际场景中部署和使用llm的障碍。 Mistral AI是一家总部位于巴黎的欧洲公司，一直在研究如何提高模型性能，同时减少为实际用例部署llm所需的计算资源。Mist 阅读全文

posted @ 2024-01-25 10:45 deephub 阅读(74) 评论(0) 推荐(0)

2024年1月24日

通过4个任务比较LangChain和LlamaIndex

摘要：我们在本地使用大模型的时候，尤其是构建RAG应用的时候，一般会有2个成熟的框架可以使用 LangChain：用开发LLM的通用框架。 LlamaIndex：专门用于构建RAG系统的框架。选择一个框架是对于项目的后续开发是非常重要的，因为如果后续更换框架是一个非常困难的事情，所以我们这里对这两个框架阅读全文

posted @ 2024-01-24 10:27 deephub 阅读(261) 评论(0) 推荐(0)

2024年1月23日

Vision Mamba:将Mamba应用于计算机视觉任务的新模型

摘要： Mamba是LLM的一种新架构，与Transformers等传统模型相比，它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域，让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with 阅读全文

posted @ 2024-01-23 09:40 deephub 阅读(626) 评论(0) 推荐(0)

2024年1月22日

针对特定领域较小的语言模型是否与较大的模型同样有效?

摘要：经过2023年的发展，大语言模型展示出了非常大的潜力，训练越来越大的模型成为有效性评估的一个关键指标，论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment 阅读全文

posted @ 2024-01-22 09:25 deephub 阅读(54) 评论(0) 推荐(0)

2024年1月21日

2024年1月论文推荐

摘要： https://avoid.overfit.cn/post/3ca961fd21494298aac3aa6df2c3d18a 阅读全文

posted @ 2024-01-21 09:50 deephub 阅读(13) 评论(0) 推荐(0)

2024年1月20日

RAG中的3个高级检索技巧

摘要： RAG系统检索的文档可能并不总是与用户的查询保持一致，这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节，或者文档的顺序可能与用户的意图不一致时，就会经常出现这种情况。本文将探讨三种有效的技术来增强基于rag的应用程序中的文档检索，通过结合这些技术，可以检索与用户查阅读全文

posted @ 2024-01-20 09:42 deephub 阅读(133) 评论(0) 推荐(0)

overfit深度学习

公告