随笔分类 -  Hugging Face 博客

上一页 1 2 3 4 5 6 7 8 ··· 11 下一页
摘要:Accelerate 1.0.0Accelerate 发展概况 在三年半以前、项目发起之初时,Accelerate 的目标还只是制作一个简单框架,通过一个低层的抽象来简化多 GPU 或 TPU 训练,以此替代原生的 PyTorch 训练流程: 自此,Accelerate 开始不断扩展,逐渐成为一个有多方面能力的代码库。当前,像 L 阅读全文
posted @ 2024-09-24 13:51 HuggingFace 阅读(419) 评论(0) 推荐(0)
摘要:Hugging Face 论文平台 Daily Papers 功能全解析文/ Adeena, 在快速发展的研究领域,保持对最新进展的关注至关重要。为了帮助开发者和研究人员跟踪 AI 领域的前沿动态,Hugging Face 推出了 Daily Papers 页面。自发布以来,Daily Papers 已展示了由 AK 和社区研究人员精心挑选的高质量研究。在过去一年里,已 阅读全文
posted @ 2024-09-24 13:34 HuggingFace 阅读(604) 评论(2) 推荐(1)
摘要:简单概述 现在,在 Hugging Face 中,使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容,这要归功于一个 最近的 PR 以及新的 DataCollatorWithFlattening。 它可以在保持收敛质量的同时,将训练吞吐量提高多达 2 倍。继 阅读全文
posted @ 2024-09-12 12:23 HuggingFace 阅读(566) 评论(0) 推荐(0)
摘要:Falcon Mamba 是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中 这里 使用它 阅读全文
posted @ 2024-09-05 21:25 HuggingFace 阅读(507) 评论(0) 推荐(1)
摘要:我们花了一笔巨款收购了 .com 域名,恭喜我们,也恭喜过去的这位域名持有者 🫴 接住了这泼天的富贵 🤗 阅读全文
posted @ 2024-09-05 10:27 HuggingFace 阅读(150) 评论(0) 推荐(2)
摘要:总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知,ring attention、YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。 引言: 语言模型的上下文长度也是除模型性能之外的重要属性之一。自 i 阅读全文
posted @ 2024-08-30 15:34 HuggingFace 阅读(149) 评论(0) 推荐(0)
摘要:本文,我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集,比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时,消融实验显示 DocVQA 任务的性能提高了 20%。 Docmatix 数据集样本示例 缘起于 丹鼎 (The Caul 阅读全文
posted @ 2024-08-30 15:20 HuggingFace 阅读(521) 评论(0) 推荐(0)
摘要:过去的几个月,我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image,T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同,这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 阅读全文
posted @ 2024-08-30 14:28 HuggingFace 阅读(678) 评论(0) 推荐(1)
摘要:ggml 是一个用 C 和 C++ 编写、专注于 Transformer 架构模型推理的机器学习库。该项目完全开源,处于活跃的开发阶段,开发社区也在不断壮大。ggml 和 PyTorch、TensorFlow 等机器学习库比较相似,但由于目前处于开发的早期阶段,一些底层设计仍在不断改进中。 相比于 阅读全文
posted @ 2024-08-29 22:20 HuggingFace 阅读(1526) 评论(0) 推荐(1)
摘要:TGI 多-LoRA: 部署一次,搞定 30 个模型的推理服务你是否已厌倦管理多个 AI 模型所带来的复杂性和高成本? 那么, 如果你可以部署一次就搞定 30 个模型推理服务会如何? 在当今的 ML 世界中,哪些希望充分发挥其数据的价值的组织可能最终会进入一个“微调的世界”。在这个世界,各个组织会构建大量模型,其中每个模型都针对特定任务进行了高度特化。但是,如 阅读全文
posted @ 2024-08-12 22:40 HuggingFace 阅读(1797) 评论(0) 推荐(1)
摘要:XetHub 加入 Hugging Face!我们非常激动地正式宣布,Hugging Face 已收购 XetHub 🔥 XetHub 是一家位于西雅图的公司,由 Yucheng Low、Ajit Banerjee 和 Rajat Arya 创立,他们之前在 Apple 工作,构建和扩展了 Apple 的内部机器学习基础设施。XetHub 的 阅读全文
posted @ 2024-08-09 20:38 HuggingFace 阅读(139) 评论(0) 推荐(0)
摘要:NuminaMath 是如何荣膺首届 AIMO 进步奖的?今年,Numina 和 Hugging Face 合作角逐 AI 数学奥林匹克 (AI Math Olympiad,AIMO) 的首届进步奖。此次比赛旨在对开放 LLM 进行微调,以使其能解决高中难度的国际数学奥林匹克训练题。我们很高兴向大家报告: 我们的模型 - NuminaMath 7B TIR 阅读全文
posted @ 2024-08-09 20:28 HuggingFace 阅读(786) 评论(0) 推荐(1)
摘要:简介 本文将介绍 SmolLM。它集合了一系列最尖端的 135M、360M、1.7B 参数量的小模型,这些模型均在一个全新的高质量数据集上训练。本文将介绍数据整理、模型评测、使用方法等相关过程。 引言 近期,人们对能在本地设备上运行的小语言模型的兴趣日渐增长。这一趋势不仅激发了相关业者对蒸馏或量化等 阅读全文
posted @ 2024-08-03 09:22 HuggingFace 阅读(3062) 评论(0) 推荐(1)
摘要:在发布 Gemma 2 一个月后,Google 扩展了其 Gemma 模型系列,新增了以下几款: Gemma 2 2B - 这是 Gemma 2 的 2.6B 参数版本,是设备端使用的理想选择。 ShieldGemma - 一系列安全分类器,基于 Gemma 2 训练,用于开发者过滤其应用程序的输入 阅读全文
posted @ 2024-08-03 08:57 HuggingFace 阅读(770) 评论(0) 推荐(0)
摘要:我们在 Hugging Face Hub 上托管的机器学习 (ML) 数据集中发现了一个引人关注的现象: 包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。 在本篇博客中,我们将深入探讨含有一种称为个人识别信息 (PII) 的私密信息的各类数据集,分析这些数据集存在的问题,并介 阅读全文
posted @ 2024-07-31 23:02 HuggingFace 阅读(290) 评论(0) 推荐(0)
摘要:Llama 3.1 发布了!今天我们迎来了 Llama 家族的新成员 Llama 3.1 进入 Hugging Face 平台。我们很高兴与 Meta 合作,确保在 Hugging Face 生态系统中实现最佳集成。Hub 上现有八个开源权重模型 (3 个基础模型和 5 个微调模型)。 Llama 阅读全文
posted @ 2024-07-26 00:02 HuggingFace 阅读(8366) 评论(1) 推荐(2)
摘要:引言 蛋白质语言模型 (Protein Language Models, PLM) 已成为蛋白质结构与功能预测及设计的有力工具。在 2023 年国际机器学习会议 (ICML) 上,MILA 和英特尔实验室联合发布了 ProtST 模型,该模型是个可基于文本提示设计蛋白质的多模态模型。此后,ProtS 阅读全文
posted @ 2024-07-25 00:20 HuggingFace 阅读(190) 评论(0) 推荐(0)
摘要:为视觉语言多模态模型进行偏好优化为视觉语言多模态模型进行偏好优化 训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种 阅读全文
posted @ 2024-07-16 23:08 HuggingFace 阅读(1369) 评论(0) 推荐(4)
摘要:微调 Florence-2 - 微软的尖端视觉语言模型Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力,因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。 Florence 开箱即用支持多种类型的任务,包括: 看图说话、目标检测、OCR 等等。虽然覆盖面很广,但仍有可 阅读全文
posted @ 2024-07-15 19:17 HuggingFace 阅读(2681) 评论(0) 推荐(0)
摘要:GAIA: 一个严苛的智能体基准简要概括 经过一些实验,我们对 Transformers 智能体构建智能体系统的性能印象深刻,因此我们想看看它有多好!我们使用一个 用库构建的代码智能体 在 GAIA 基准上进行测试,这可以说是最困难、最全面的智能体基准测试……最终我们取得了第一名的成绩! GAIA: 一个严苛的智能体基准 什么是智 阅读全文
posted @ 2024-07-09 11:26 HuggingFace 阅读(5460) 评论(1) 推荐(0)

上一页 1 2 3 4 5 6 7 8 ··· 11 下一页