deephub

2024年1月23日

摘要： Mamba是LLM的一种新架构，与Transformers等传统模型相比，它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域，让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with 阅读全文

posted @ 2024-01-23 09:40 deephub 阅读(588) 评论(0) 推荐(0)

2024年1月22日

针对特定领域较小的语言模型是否与较大的模型同样有效?

摘要：经过2023年的发展，大语言模型展示出了非常大的潜力，训练越来越大的模型成为有效性评估的一个关键指标，论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment 阅读全文

posted @ 2024-01-22 09:25 deephub 阅读(44) 评论(0) 推荐(0)

2024年1月21日

2024年1月论文推荐

摘要： https://avoid.overfit.cn/post/3ca961fd21494298aac3aa6df2c3d18a 阅读全文

posted @ 2024-01-21 09:50 deephub 阅读(12) 评论(0) 推荐(0)

2024年1月20日

RAG中的3个高级检索技巧

摘要： RAG系统检索的文档可能并不总是与用户的查询保持一致，这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节，或者文档的顺序可能与用户的意图不一致时，就会经常出现这种情况。本文将探讨三种有效的技术来增强基于rag的应用程序中的文档检索，通过结合这些技术，可以检索与用户查阅读全文

posted @ 2024-01-20 09:42 deephub 阅读(110) 评论(0) 推荐(0)

2024年1月19日

4种通过LLM进行文本知识图谱的构建方法对比介绍

摘要：我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程，比如需要对属性增加限制，创建符合特定主题/模式的图谱，并且有时文档非常大，无法作为单个提示处理，所以在切分后的提示中创建的图谱需要前后一致。所以本文将介绍和比较使用LLM转换非结构化文阅读全文

posted @ 2024-01-19 09:57 deephub 阅读(155) 评论(0) 推荐(0)

2024年1月18日

使用SPIN技术对LLM进行自我博弈微调训练

摘要： 2024年是大型语言模型(llm)的快速发展的一年，对于大语言模型的训练一个重要的方法是对齐方法，它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用，但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究阅读全文

posted @ 2024-01-18 10:04 deephub 阅读(113) 评论(0) 推荐(0)

2024年1月17日

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

摘要：在2022年11月OpenAI的ChatGPT发布之后，大型语言模型(llm)变得非常受欢迎。从那时起，这些语言模型的使用得到了爆炸式的发展，这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。计算机要处理语言，首先需要将文本转换成数字形式。这个过程由一个称为阅读全文

posted @ 2024-01-17 10:22 deephub 阅读(41) 评论(0) 推荐(0)

2024年1月16日

提高代码效率的6个Python内存优化技巧

摘要：当项目变得越来越大时，有效地管理计算资源是一个不可避免的需求。Python与C或c++等低级语言相比，似乎不够节省内存。但是其实有许多方法可以显著优化Python程序的内存使用，这些方法可能在实际应用中并没有人注意，所以本文将重点介绍Python的内置机制，掌握它们将大大提高Python编程技能。阅读全文

posted @ 2024-01-16 09:46 deephub 阅读(20) 评论(0) 推荐(0)

2024年1月14日

基于协方差矩阵自适应演化策略（CMA-ES）的高效特征选择

摘要：特征选择是指从原始特征集中选择一部分特征，以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征，同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力，并且可以减少训练和推理的计算成本。如果特征N的数量很小，那么穷举搜索可能是可行的:比如说尝试所阅读全文

posted @ 2024-01-14 09:54 deephub 阅读(74) 评论(0) 推荐(0)

2024年1月13日

使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B

摘要： Mixtral-8x7B是最好的开放大型语言模型(LLM)之一，但它是一个具有46.7B参数的庞大模型。即使量化为4位，该模型也无法在消费级GPU上完全加载(例如，24 GB VRAM是不够的)。 Mixtral-8x7B是混合专家(MoE)。它由8个专家子网组成，每个子网有60亿个参数。8位专家中阅读全文

posted @ 2024-01-13 09:46 deephub 阅读(102) 评论(0) 推荐(0)

overfit深度学习

公告