摘要:
基于已有的 tokenizer 训练新的 tokenizer 如果你感兴趣的语言中没有可用的语言模型,或者你的语料库与语言模型训练时所使用的语料库差异很大,你可能需要从零开始重新训练一个适应你的数据的 tokenizer 模型。训练一个新的 tokenizer 是什么意思呢?从我们在 第二章 中第一 阅读全文
posted @ 2025-08-27 11:02
有何m不可
阅读(143)
评论(0)
推荐(0)
摘要:
本章简介 在 第三章 中,我们研究了如何在特定任务上微调模型。当我们需要微调模型时,我们需要使用与模型预训练相同的 tokenizer —— 但是当我们想从头开始训练模型时应该选用哪个 tokenizer ?使用在来自其他领域或语言的语料库上预训练的 tokenizer 通常不是最理想的。例如,在英 阅读全文
posted @ 2025-08-27 10:52
有何m不可
阅读(36)
评论(0)
推荐(0)
摘要:
🤗 Datasets,完结! 这是对 🤗 Datasets 库的一次完整的探索——祝贺你走到这一步!凭借从本章中获得的知识,你应该能够: 从任何地方加载数据集,无论是 Hugging Face Hub、你的笔记本电脑还是你公司的远程服务器。 混合使用 Dataset.map() 和 Datase 阅读全文
posted @ 2025-08-27 10:51
有何m不可
阅读(34)
评论(0)
推荐(0)
摘要:
使用 FAISS 进行语义搜索 在 第5小节 ,我们创建了一个 🤗 Datasets 仓库的 GitHub issues 和评论组成的数据集。在本节,我们将使用这些信息构建一个搜索引擎,帮助我们找到关于该库的最相关的 issue 的答案! 使用文本嵌入进行语义搜索 正如我们在 第一章 ,学习的,基 阅读全文
posted @ 2025-08-27 10:50
有何m不可
阅读(45)
评论(0)
推荐(0)
摘要:
创建自己的数据集 有时,不存在现有的合适的数据集适用于你构建 NLP 应用,因此你需要自己创建。在本节中,我们将向你展示如何创建一个由 GitHub issues 组成的的语料库,这些 issues 通常用于跟踪 GitHub 仓库中的错误或功能。该语料库可用于各种应用场景,包括: 探索解决 iss 阅读全文
posted @ 2025-08-27 10:40
有何m不可
阅读(123)
评论(0)
推荐(0)
摘要:
大数据?🤗 Datasets 应对有方! 如今,处理 GB 级别的数据集已不再罕见,特别是如果你打算从头开始预训练像 BERT 或者 GPT-2 这样的 Transormer 模型。在这种情况下,甚至 加载(load) 数据集都可能成为挑战。例如,用于预训练 GPT-2 的 WebText 语料库 阅读全文
posted @ 2025-08-27 10:30
有何m不可
阅读(59)
评论(0)
推荐(0)

浙公网安备 33010602011771号