会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
75
76
77
78
79
80
81
82
83
···
144
下一页
2023年9月13日
Llama-2 推理和微调的硬件要求总结:RTX 3080 就可以微调最小模型
摘要: 大语言模型微调是指对已经预训练的大型语言模型(例如Llama-2,Falcon等)进行额外的训练,以使其适应特定任务或领域的需求。微调通常需要大量的计算资源,但是通过量化和Lora等方法,我们也可以在消费级的GPU上来微调测试,但是消费级GPU也无法承载比较大的模型,经过我的测试,7B的模型可以在3
阅读全文
posted @ 2023-09-13 10:12 deephub
阅读(217)
评论(0)
推荐(0)
2023年9月12日
Falcon 180B 目前最强大的开源模型
摘要: Technology Innovation Institute最近发布了Falcon 180B大型语言模型(LLM),它击败了Llama-2 70b,与谷歌Bard的基础模型PaLM-2 Large不相上下。 180B是是Falcon 40B模型一个最新版本。以下是该模型的快速概述: 180B参数模
阅读全文
posted @ 2023-09-12 09:34 deephub
阅读(106)
评论(0)
推荐(0)
2023年9月10日
Langchain的一些问题和替代选择
摘要: Langchain因其简化大型语言模型(llm)的交互方面的到关注。凭借其高级的API可以简化将llm集成到各种应用程序中的过程。 但是Langchain乍一看似乎是一个方便的工具,但是它有时候否更像是一个语言迷宫,而不是一个直截了当的解决方案。在本文中,我们将探讨与Langchain相关的一些问题
阅读全文
posted @ 2023-09-10 09:15 deephub
阅读(399)
评论(0)
推荐(0)
2023年9月9日
SplitMask:大规模数据集是自我监督预训练的必要条件吗?
摘要: 自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。
阅读全文
posted @ 2023-09-09 11:42 deephub
阅读(21)
评论(0)
推荐(0)
2023年9月8日
Nougat:一种用于科学文档OCR的Transformer 模型
摘要: 随着人工智能领域的不断进步,其子领域,包括自然语言处理,自然语言生成,计算机视觉等,由于其广泛的用例而迅速获得了大量的普及。光学字符识别(OCR)是计算机视觉中一个成熟且被广泛研究的领域。它有许多用途,如文档数字化、手写识别和场景文本识别。数学表达式的识别是OCR在学术研究中受到广泛关注的一个领域。
阅读全文
posted @ 2023-09-08 09:36 deephub
阅读(178)
评论(0)
推荐(0)
2023年9月7日
CMT:卷积与Transformers的高效结合
摘要: 论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕获远程依赖关系,利用cnn提取局部信息。构建了一系列模型cmt,它在准确性和效率方面有更好的权衡。 CMT:体系结构 CMT块由一个局部感知单元(LPU)、一个轻量级多头自注意模块(LMHSA)和一个反向残差前馈网络(IRFFN
阅读全文
posted @ 2023-09-07 09:23 deephub
阅读(94)
评论(0)
推荐(0)
2023年9月6日
使用GPT-4生成训练数据微调GPT-3.5 RAG管道
摘要: OpenAI在2023年8月22日宣布,现在可以对GPT-3.5 Turbo进行微调了。也就是说,我们可以自定义自己的模型了。然后LlamaIndex就发布了0.8.7版本,集成了微调OpenAI gpt-3.5 turbo的功能 也就是说,我们现在可以使用GPT-4生成训练数据,然后用更便宜的AP
阅读全文
posted @ 2023-09-06 10:46 deephub
阅读(166)
评论(0)
推荐(0)
2023年9月5日
Pandas DataFrame 数据存储格式比较
摘要: Pandas 支持多种存储格式,在本文中将对不同类型存储格式下的Pandas Dataframe的读取速度、写入速度和大小的进行测试对比。 https://avoid.overfit.cn/post/387acc48c7dd42a49f7bec90cc6d09ae
阅读全文
posted @ 2023-09-05 10:26 deephub
阅读(62)
评论(0)
推荐(0)
2023年9月4日
量化自定义PyTorch模型入门教程
摘要: 在以前Pytorch只有一种量化的方法,叫做“eager mode qunatization”,在量化我们自定定义模型时经常会产生奇怪的错误,并且很难解决。但是最近,PyTorch发布了一种称为“fx-graph-mode-qunatization”的方方法。在本文中我们将研究这个fx-graph-
阅读全文
posted @ 2023-09-04 10:35 deephub
阅读(54)
评论(0)
推荐(0)
2023年9月3日
15个基本且常用Pandas代码片段
摘要: Pandas提供了强大的数据操作和分析功能,是数据科学的日常基本工具。在本文中,我们将介绍最常用的15个Pandas代码片段。这些片段将帮助简化数据分析任务,从数据集中提取有价值的见解。 https://avoid.overfit.cn/post/d5097a67e5c34a0ab42395d8c2
阅读全文
posted @ 2023-09-03 10:46 deephub
阅读(31)
评论(0)
推荐(0)
上一页
1
···
75
76
77
78
79
80
81
82
83
···
144
下一页
公告