有何m不可 - 博客园

2025年8月27日

HuggingFace课程-6. 🤗 Tokenizers库基于已有的 tokenizer 训练新的 tokenizer

摘要：基于已有的 tokenizer 训练新的 tokenizer 如果你感兴趣的语言中没有可用的语言模型，或者你的语料库与语言模型训练时所使用的语料库差异很大，你可能需要从零开始重新训练一个适应你的数据的 tokenizer 模型。训练一个新的 tokenizer 是什么意思呢？从我们在第二章中第一阅读全文

posted @ 2025-08-27 11:02 有何m不可阅读(181) 评论(0) 推荐(0)

HuggingFace课程-6. 🤗 Tokenizers库本章简介

摘要：本章简介在第三章中，我们研究了如何在特定任务上微调模型。当我们需要微调模型时，我们需要使用与模型预训练相同的 tokenizer —— 但是当我们想从头开始训练模型时应该选用哪个 tokenizer ？使用在来自其他领域或语言的语料库上预训练的 tokenizer 通常不是最理想的。例如，在英阅读全文

posted @ 2025-08-27 10:52 有何m不可阅读(40) 评论(0) 推荐(0)

HuggingFace课程-5. 🤗 Datasets库完结！

摘要： 🤗 Datasets，完结！这是对 🤗 Datasets 库的一次完整的探索——祝贺你走到这一步！凭借从本章中获得的知识，你应该能够：从任何地方加载数据集，无论是 Hugging Face Hub、你的笔记本电脑还是你公司的远程服务器。混合使用 Dataset.map() 和 Datase 阅读全文

posted @ 2025-08-27 10:51 有何m不可阅读(39) 评论(0) 推荐(0)

HuggingFace课程-5. 🤗 Datasets库使用 FAISS 进行语义搜索

摘要：使用 FAISS 进行语义搜索在第5小节，我们创建了一个 🤗 Datasets 仓库的 GitHub issues 和评论组成的数据集。在本节，我们将使用这些信息构建一个搜索引擎，帮助我们找到关于该库的最相关的 issue 的答案！使用文本嵌入进行语义搜索正如我们在第一章，学习的，基阅读全文

posted @ 2025-08-27 10:50 有何m不可阅读(63) 评论(0) 推荐(0)

HuggingFace课程-5. 🤗 Datasets库创建自己的数据集

摘要：创建自己的数据集有时，不存在现有的合适的数据集适用于你构建 NLP 应用，因此你需要自己创建。在本节中，我们将向你展示如何创建一个由 GitHub issues 组成的的语料库，这些 issues 通常用于跟踪 GitHub 仓库中的错误或功能。该语料库可用于各种应用场景，包括：探索解决 iss 阅读全文

posted @ 2025-08-27 10:40 有何m不可阅读(152) 评论(0) 推荐(0)

HuggingFace课程-5. 🤗 Datasets库大数据？🤗 Datasets 应对有方！

摘要：大数据？🤗 Datasets 应对有方！如今，处理 GB 级别的数据集已不再罕见，特别是如果你打算从头开始预训练像 BERT 或者 GPT-2 这样的 Transormer 模型。在这种情况下，甚至加载(load) 数据集都可能成为挑战。例如，用于预训练 GPT-2 的 WebText 语料库阅读全文

posted @ 2025-08-27 10:30 有何m不可阅读(71) 评论(0) 推荐(0)

2025年8月26日

HuggingFace课程-5. 🤗 Datasets库分割和整理数据

摘要：分割和整理数据大多数情况下，你处理的数据并不能直接用于训练模型。在本节中，我们将探索🤗 Datasets 提供的各种功能，用于清洗你的数据集。分割和整理我们的数据与 Pandas 类似，🤗 Datasets 提供了多个函数来操作 Dataset 和 DatasetDict 对象。我们在第阅读全文

posted @ 2025-08-26 19:22 有何m不可阅读(124) 评论(0) 推荐(0)

HuggingFace课程-5. 🤗 Datasets库如果我的数据集不在 Hub 上怎么办？

摘要：如果我的数据集不在 Hub 上怎么办？你已经知道如何使用 Hugging Face Hub 中的数据集，但你往往会发现自己需要处理在自己的笔记本电脑或者网络上的数据集。在本节中，我们将展示如何使用🤗 Datasets 加载不在 Hugging Face Hub 中的数据集。使用本地和远程数据集阅读全文

posted @ 2025-08-26 18:26 有何m不可阅读(94) 评论(0) 推荐(0)

HuggingFace课程-5. 🤗 Datasets库本章简介

摘要：本章简介我们在第三章第一次体验了🤗 Datasets 库，了解到微调模型主要有三个步骤：从 Hugging Face Hub 加载数据集。使用 Dataset.map() 预处理数据。加载和计算指标（特征）。但这仅仅触及了🤗 Datasets 库能做的事情的冰山一角！在本章，我们将阅读全文

posted @ 2025-08-26 18:22 有何m不可阅读(38) 评论(0) 推荐(0)

HuggingFace课程-4. 分享你的模型和标记器 Part 1 完结！

摘要： Part 1 完结！这是课程第一部分的结尾！第 2 部分将在 11 月 15 日与大型社区活动一起发布，更多信息请点击这里。你现在应该能够针对文本分类问题（单个或成对句子）对预训练模型进行微调，并将结果上传到模型中心。为确保你掌握了第一部分的内容，你应该针对你感兴趣的想法进行尝试（不一定是英阅读全文

posted @ 2025-08-26 17:45 有何m不可阅读(27) 评论(0) 推荐(0)

gongzb

公告