HuggingFace - 博客园

2024年9月26日

摘要：

我们为 LLM 确立了一个跨模型的统一工具调用 API。有了它，你就可以在不同的模型上使用相同的代码，在 Mistral、Cohere、NousResearch 或 Llama 等模型间自由切换，而无需或很少需要根据模型更改工具调用相关的代码。此外，我们还在 transformers 中新增了一些阅读全文

posted @ 2024-09-26 10:16 HuggingFace 阅读(926) 评论(0) 推荐(1)

2024年9月24日

Accelerate 1.0.0

摘要：

Accelerate 发展概况在三年半以前、项目发起之初时，Accelerate 的目标还只是制作一个简单框架，通过一个低层的抽象来简化多 GPU 或 TPU 训练，以此替代原生的 PyTorch 训练流程: 自此，Accelerate 开始不断扩展，逐渐成为一个有多方面能力的代码库。当前，像 L 阅读全文

posted @ 2024-09-24 13:51 HuggingFace 阅读(456) 评论(0) 推荐(0)

Hugging Face 论文平台 Daily Papers 功能全解析

摘要：

文/ Adeena，在快速发展的研究领域，保持对最新进展的关注至关重要。为了帮助开发者和研究人员跟踪 AI 领域的前沿动态，Hugging Face 推出了 Daily Papers 页面。自发布以来，Daily Papers 已展示了由 AK 和社区研究人员精心挑选的高质量研究。在过去一年里，已阅读全文

posted @ 2024-09-24 13:34 HuggingFace 阅读(718) 评论(2) 推荐(1)

2024年9月12日

通过打包 Flash Attention 来提升 Hugging Face 训练效率

摘要：简单概述现在，在 Hugging Face 中，使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容，这要归功于一个最近的 PR 以及新的 DataCollatorWithFlattening。它可以在保持收敛质量的同时，将训练吞吐量提高多达 2 倍。继阅读全文

posted @ 2024-09-12 12:23 HuggingFace 阅读(607) 评论(0) 推荐(0)

2024年9月5日

Falcon Mamba: 首个高效的无注意力机制 7B 模型

摘要： Falcon Mamba 是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的，所以任何人都可以在 Hugging Face 生态系统中这里使用它阅读全文

posted @ 2024-09-05 21:25 HuggingFace 阅读(536) 评论(0) 推荐(1)

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗？

摘要：

在开发 Docmatix 时，我们发现经其微调的 Florence-2 在 DocVQA 任务上表现出色，但在基准测试中得分仍比较低。为了提高基准测试得分，我们必须在 DocVQA 数据集上进一步对模型进行微调，以学习该基准测试的语法风格。有意思的是，人类评估者认为经额外微调后，模型的表现似乎反而不阅读全文

posted @ 2024-09-05 11:05 HuggingFace 阅读(273) 评论(0) 推荐(0)

正式收购 huggingface.com 域名

摘要：我们花了一笔巨款收购了 .com 域名，恭喜我们，也恭喜过去的这位域名持有者 🫴 接住了这泼天的富贵 🤗 阅读全文

posted @ 2024-09-05 10:27 HuggingFace 阅读(166) 评论(0) 推荐(2)

2024年8月30日

一次失败的实验 - 无限注意力，我们为什么坚持实验

摘要：总结: 随着我们增加内存压缩次数的次数，Infini-attention 的性能会变得越来越差。据我们所知，ring attention、YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。引言: 语言模型的上下文长度也是除模型性能之外的重要属性之一。自 i 阅读全文

posted @ 2024-08-30 15:34 HuggingFace 阅读(182) 评论(0) 推荐(0)

Docmatix - 超大文档视觉问答数据集

摘要：本文，我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集，比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时，消融实验显示 DocVQA 任务的性能提高了 20%。 Docmatix 数据集样本示例缘起于丹鼎 (The Caul 阅读全文

posted @ 2024-08-30 15:20 HuggingFace 阅读(559) 评论(0) 推荐(0)

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

摘要：过去的几个月，我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image，T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同，这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 阅读全文

posted @ 2024-08-30 14:28 HuggingFace 阅读(748) 评论(0) 推荐(1)

Hugging Face 博客

The AI community building the future.

公告