会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
73
74
75
76
77
78
79
80
81
···
154
下一页
2024年1月21日
2024年1月论文推荐
摘要: https://avoid.overfit.cn/post/3ca961fd21494298aac3aa6df2c3d18a
阅读全文
posted @ 2024-01-21 09:50 deephub
阅读(16)
评论(0)
推荐(0)
2024年1月20日
RAG中的3个高级检索技巧
摘要: RAG系统检索的文档可能并不总是与用户的查询保持一致,这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节,或者文档的顺序可能与用户的意图不一致时,就会经常出现这种情况。 本文将探讨三种有效的技术来增强基于rag的应用程序中的文档检索,通过结合这些技术,可以检索与用户查
阅读全文
posted @ 2024-01-20 09:42 deephub
阅读(144)
评论(0)
推荐(0)
2024年1月19日
4种通过LLM进行文本知识图谱的构建方法对比介绍
摘要: 我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程,比如需要对属性增加限制,创建符合特定主题/模式的图谱,并且有时文档非常大,无法作为单个提示处理,所以在切分后的提示中创建的图谱需要前后一致。 所以本文将介绍和比较使用LLM转换非结构化文
阅读全文
posted @ 2024-01-19 09:57 deephub
阅读(201)
评论(0)
推荐(0)
2024年1月18日
使用SPIN技术对LLM进行自我博弈微调训练
摘要: 2024年是大型语言模型(llm)的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究
阅读全文
posted @ 2024-01-18 10:04 deephub
阅读(133)
评论(0)
推荐(0)
2024年1月17日
Tokenization 指南:字节对编码,WordPiece等方法Python代码详解
摘要: 在2022年11月OpenAI的ChatGPT发布之后,大型语言模型(llm)变得非常受欢迎。从那时起,这些语言模型的使用得到了爆炸式的发展,这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。 计算机要处理语言,首先需要将文本转换成数字形式。这个过程由一个称为
阅读全文
posted @ 2024-01-17 10:22 deephub
阅读(78)
评论(0)
推荐(0)
2024年1月16日
提高代码效率的6个Python内存优化技巧
摘要: 当项目变得越来越大时,有效地管理计算资源是一个不可避免的需求。Python与C或c++等低级语言相比,似乎不够节省内存。 但是其实有许多方法可以显著优化Python程序的内存使用,这些方法可能在实际应用中并没有人注意,所以本文将重点介绍Python的内置机制,掌握它们将大大提高Python编程技能。
阅读全文
posted @ 2024-01-16 09:46 deephub
阅读(39)
评论(0)
推荐(0)
2024年1月14日
基于协方差矩阵自适应演化策略(CMA-ES)的高效特征选择
摘要: 特征选择是指从原始特征集中选择一部分特征,以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征,同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力,并且可以减少训练和推理的计算成本。 如果特征N的数量很小,那么穷举搜索可能是可行的:比如说尝试所
阅读全文
posted @ 2024-01-14 09:54 deephub
阅读(92)
评论(0)
推荐(0)
2024年1月13日
使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B
摘要: Mixtral-8x7B是最好的开放大型语言模型(LLM)之一,但它是一个具有46.7B参数的庞大模型。即使量化为4位,该模型也无法在消费级GPU上完全加载(例如,24 GB VRAM是不够的)。 Mixtral-8x7B是混合专家(MoE)。它由8个专家子网组成,每个子网有60亿个参数。8位专家中
阅读全文
posted @ 2024-01-13 09:46 deephub
阅读(140)
评论(0)
推荐(0)
2024年1月12日
在Colab上测试Mamba
摘要: 我们在前面的文章介绍了研究人员推出了一种挑战Transformer的新架构Mamba 他们的研究表明,Mamba是一种状态空间模型(SSM),在不同的模式(如语言、音频和时间序列)中表现出卓越的性能。为了说明这一点,研究人员使用Mamba-3B模型进行了语言建模实验。该模型超越了基于相同大小的Tra
阅读全文
posted @ 2024-01-12 09:37 deephub
阅读(127)
评论(0)
推荐(0)
2024年1月11日
使用CLIP和LLM构建多模态RAG系统
摘要: 使用CLIP和LLM构建多模态RAG系统 在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。 什么是RA
阅读全文
posted @ 2024-01-11 10:39 deephub
阅读(325)
评论(0)
推荐(0)
上一页
1
···
73
74
75
76
77
78
79
80
81
···
154
下一页
公告