上一页 1 2 3 4 5 6 7 8 9 10 ··· 21 下一页
摘要: 基于已有的 tokenizer 训练新的 tokenizer 如果你感兴趣的语言中没有可用的语言模型,或者你的语料库与语言模型训练时所使用的语料库差异很大,你可能需要从零开始重新训练一个适应你的数据的 tokenizer 模型。训练一个新的 tokenizer 是什么意思呢?从我们在 第二章 中第一 阅读全文
posted @ 2025-08-27 11:02 有何m不可 阅读(143) 评论(0) 推荐(0)
摘要: 本章简介 在 第三章 中,我们研究了如何在特定任务上微调模型。当我们需要微调模型时,我们需要使用与模型预训练相同的 tokenizer —— 但是当我们想从头开始训练模型时应该选用哪个 tokenizer ?使用在来自其他领域或语言的语料库上预训练的 tokenizer 通常不是最理想的。例如,在英 阅读全文
posted @ 2025-08-27 10:52 有何m不可 阅读(36) 评论(0) 推荐(0)
摘要: 🤗 Datasets,完结! 这是对 🤗 Datasets 库的一次完整的探索——祝贺你走到这一步!凭借从本章中获得的知识,你应该能够: 从任何地方加载数据集,无论是 Hugging Face Hub、你的笔记本电脑还是你公司的远程服务器。 混合使用 Dataset.map() 和 Datase 阅读全文
posted @ 2025-08-27 10:51 有何m不可 阅读(34) 评论(0) 推荐(0)
摘要: 使用 FAISS 进行语义搜索 在 第5小节 ,我们创建了一个 🤗 Datasets 仓库的 GitHub issues 和评论组成的数据集。在本节,我们将使用这些信息构建一个搜索引擎,帮助我们找到关于该库的最相关的 issue 的答案! 使用文本嵌入进行语义搜索 正如我们在 第一章 ,学习的,基 阅读全文
posted @ 2025-08-27 10:50 有何m不可 阅读(45) 评论(0) 推荐(0)
摘要: 创建自己的数据集 有时,不存在现有的合适的数据集适用于你构建 NLP 应用,因此你需要自己创建。在本节中,我们将向你展示如何创建一个由 GitHub issues 组成的的语料库,这些 issues 通常用于跟踪 GitHub 仓库中的错误或功能。该语料库可用于各种应用场景,包括: 探索解决 iss 阅读全文
posted @ 2025-08-27 10:40 有何m不可 阅读(123) 评论(0) 推荐(0)
摘要: 大数据?🤗 Datasets 应对有方! 如今,处理 GB 级别的数据集已不再罕见,特别是如果你打算从头开始预训练像 BERT 或者 GPT-2 这样的 Transormer 模型。在这种情况下,甚至 加载(load) 数据集都可能成为挑战。例如,用于预训练 GPT-2 的 WebText 语料库 阅读全文
posted @ 2025-08-27 10:30 有何m不可 阅读(59) 评论(0) 推荐(0)
摘要: 分割和整理数据 大多数情况下,你处理的数据并不能直接用于训练模型。在本节中,我们将探索🤗 Datasets 提供的各种功能,用于清洗你的数据集。 分割和整理我们的数据 与 Pandas 类似,🤗 Datasets 提供了多个函数来操作 Dataset 和 DatasetDict 对象。我们在 第 阅读全文
posted @ 2025-08-26 19:22 有何m不可 阅读(97) 评论(0) 推荐(0)
摘要: 如果我的数据集不在 Hub 上怎么办? 你已经知道如何使用 Hugging Face Hub 中的数据集,但你往往会发现自己需要处理在自己的笔记本电脑或者网络上的数据集。在本节中,我们将展示如何使用🤗 Datasets 加载不在 Hugging Face Hub 中的数据集。 使用本地和远程数据集 阅读全文
posted @ 2025-08-26 18:26 有何m不可 阅读(67) 评论(0) 推荐(0)
摘要: 本章简介 我们在 第三章 第一次体验了🤗 Datasets 库,了解到微调模型主要有三个步骤: 从 Hugging Face Hub 加载数据集。 使用 Dataset.map() 预处理数据。 加载和计算指标(特征)。 但这仅仅触及了🤗 Datasets 库能做的事情的冰山一角!在本章,我们将 阅读全文
posted @ 2025-08-26 18:22 有何m不可 阅读(34) 评论(0) 推荐(0)
摘要: Part 1 完结! 这是课程第一部分的结尾!第 2 部分将在 11 月 15 日与大型社区活动一起发布,更多信息请 点击这里 。 你现在应该能够针对文本分类问题(单个或成对句子)对预训练模型进行微调,并将结果上传到模型中心。为确保你掌握了第一部分的内容,你应该针对你感兴趣的想法进行尝试(不一定是英 阅读全文
posted @ 2025-08-26 17:45 有何m不可 阅读(22) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 21 下一页