会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
74
75
76
77
78
79
80
81
82
···
154
下一页
2024年1月18日
使用SPIN技术对LLM进行自我博弈微调训练
摘要: 2024年是大型语言模型(llm)的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究
阅读全文
posted @ 2024-01-18 10:04 deephub
阅读(134)
评论(0)
推荐(0)
2024年1月17日
Tokenization 指南:字节对编码,WordPiece等方法Python代码详解
摘要: 在2022年11月OpenAI的ChatGPT发布之后,大型语言模型(llm)变得非常受欢迎。从那时起,这些语言模型的使用得到了爆炸式的发展,这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。 计算机要处理语言,首先需要将文本转换成数字形式。这个过程由一个称为
阅读全文
posted @ 2024-01-17 10:22 deephub
阅读(85)
评论(0)
推荐(0)
2024年1月16日
提高代码效率的6个Python内存优化技巧
摘要: 当项目变得越来越大时,有效地管理计算资源是一个不可避免的需求。Python与C或c++等低级语言相比,似乎不够节省内存。 但是其实有许多方法可以显著优化Python程序的内存使用,这些方法可能在实际应用中并没有人注意,所以本文将重点介绍Python的内置机制,掌握它们将大大提高Python编程技能。
阅读全文
posted @ 2024-01-16 09:46 deephub
阅读(41)
评论(0)
推荐(0)
2024年1月14日
基于协方差矩阵自适应演化策略(CMA-ES)的高效特征选择
摘要: 特征选择是指从原始特征集中选择一部分特征,以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征,同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力,并且可以减少训练和推理的计算成本。 如果特征N的数量很小,那么穷举搜索可能是可行的:比如说尝试所
阅读全文
posted @ 2024-01-14 09:54 deephub
阅读(93)
评论(0)
推荐(0)
2024年1月13日
使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B
摘要: Mixtral-8x7B是最好的开放大型语言模型(LLM)之一,但它是一个具有46.7B参数的庞大模型。即使量化为4位,该模型也无法在消费级GPU上完全加载(例如,24 GB VRAM是不够的)。 Mixtral-8x7B是混合专家(MoE)。它由8个专家子网组成,每个子网有60亿个参数。8位专家中
阅读全文
posted @ 2024-01-13 09:46 deephub
阅读(142)
评论(0)
推荐(0)
2024年1月12日
在Colab上测试Mamba
摘要: 我们在前面的文章介绍了研究人员推出了一种挑战Transformer的新架构Mamba 他们的研究表明,Mamba是一种状态空间模型(SSM),在不同的模式(如语言、音频和时间序列)中表现出卓越的性能。为了说明这一点,研究人员使用Mamba-3B模型进行了语言建模实验。该模型超越了基于相同大小的Tra
阅读全文
posted @ 2024-01-12 09:37 deephub
阅读(129)
评论(0)
推荐(0)
2024年1月11日
使用CLIP和LLM构建多模态RAG系统
摘要: 使用CLIP和LLM构建多模态RAG系统 在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。 什么是RA
阅读全文
posted @ 2024-01-11 10:39 deephub
阅读(338)
评论(0)
推荐(0)
2024年1月10日
使用PyTorch实现混合专家(MoE)模型
摘要: Mixtral 8x7B 的推出在开放 AI 领域引发了广泛关注,特别是混合专家(Mixture-of-Experts:MoEs)这一概念被大家所认知。混合专家(MoE)概念是协作智能的象征,体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势,以提供更好的预测。它是围绕一个门控网络
阅读全文
posted @ 2024-01-10 09:54 deephub
阅读(311)
评论(0)
推荐(0)
2024年1月9日
挑战Transformer的新架构Mamba解析以及Pytorch复现
摘要: 今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模” Mamba一直在人工智能界掀起波澜,被吹捧为Transformer的潜在竞争对手。到底是什么让Mamba在拥挤的序列建中脱颖而出? 在介绍之前先简要回顾一下现有的模型 Transformer:以其注意力机制而闻名,其中序
阅读全文
posted @ 2024-01-09 09:57 deephub
阅读(797)
评论(0)
推荐(0)
2024年1月8日
使用知识图谱提高RAG的能力,减少大模型幻觉
摘要: 在使用大型语言模型(llm)时,幻觉是一个常见的问题。LLM生成流畅连贯的文本,但往往生成不准确或不一致的信息。防止LLM产生幻觉的方法之一是使用提供事实信息的外部知识来源,如数据库或知识图谱。 向量数据库和知识图谱 向量数据库 向量数据库是表示实体或概念(如单词、短语或文档)的高维向量的集合。数据
阅读全文
posted @ 2024-01-08 09:40 deephub
阅读(169)
评论(0)
推荐(0)
上一页
1
···
74
75
76
77
78
79
80
81
82
···
154
下一页
公告