摘要: 提取文本摘要 在本节中,我们将看看如何使用 Transformer 模型将长篇文档压缩为摘要,这项任务称为文本摘要。这是最具挑战性的自然语言处理(NLP)任务之一,因为它需要一系列能力,例如理解长篇文章并且生成能够捕捉文档中主要主题的连贯文本。但是,如果做得好,文本摘要是一种强大的工具,可以减轻各个 阅读全文
posted @ 2025-08-27 19:41 有何m不可 阅读(33) 评论(0) 推荐(0)
摘要: 翻译 现在让我们深入研究翻译。这是另一个 sequence-to-sequence 任务 ,着这是一个可以表述为输入是一个序列输出另一个序列的问题。从这个意义上说,这个问题非常类似 文本摘要 ,并且你可以将我们将在此处学习到的一些技巧迁移到其他的序列到序列问题,例如: 风格迁移 创建一个模型将某种风 阅读全文
posted @ 2025-08-27 19:20 有何m不可 阅读(30) 评论(0) 推荐(0)
摘要: 微调掩码语言模型(masked language model) 对于许多涉及 Transformer 模型的 NLP 任务,你可以简单地从 Hugging Face Hub 中获取一个预训练的模型,然后直接在你的数据上对其进行微调,以完成手头的任务。只要用于预训练的语料库与用于微调的语料库没有太大区 阅读全文
posted @ 2025-08-27 19:05 有何m不可 阅读(39) 评论(0) 推荐(0)
摘要: Token 分类 我们将首先探讨的应用是 Token 分类。这个通用任务涵盖了所有可以表述为“给句子中的词或字贴上标签”的问题,例如: 实体命名识别 (NER):找出句子中的实体(如人物、地点或组织)。这可以通过为每个实体指定一个类别的标签,如果没有实体则会输出无实体的标签。 词性标注 (POS): 阅读全文
posted @ 2025-08-27 16:41 有何m不可 阅读(22) 评论(0) 推荐(0)
摘要: 章节简介 在 第三章 ,你了解了如何微调文本分类模型。在本章中,我们将处理以下常见的 NLP 任务: Token 分类 掩码语言建模(如 BERT) 文本摘要 翻译 因果语言建模预训练(如 GPT-2) 问答 为此,你需要充分利用在 第三章 中学到的有关 Trainer API 和 🤗 Accel 阅读全文
posted @ 2025-08-27 16:20 有何m不可 阅读(13) 评论(0) 推荐(0)
摘要: tokenizer 回顾! 恭喜你完成了这一章! 在深入研究 tokenizer 之后,你应该: 能够使用旧的 tokenizer 作为模板来训练新的 tokenizer 了解如何使用偏移量将 tokens 的位置映射到其原始文本范围 了解 BPE、WordPiece 和 Unigram 之间的区别 阅读全文
posted @ 2025-08-27 16:17 有何m不可 阅读(14) 评论(0) 推荐(0)
摘要: 模块化构建 tokenizer 正如我们在前几节中看到的,tokenization 包括几个步骤: 标准化(任何认为必要的文本清理,例如删除空格或重音符号、Unicode 规范化等) 预分词(将输入拆分为单词) 通过模型处理输入(使用预先拆分的词来生成一系列 tokens ) 后处理(添加 toke 阅读全文
posted @ 2025-08-27 16:14 有何m不可 阅读(57) 评论(0) 推荐(0)
摘要: Unigram Tokenization 算法 Unigram 算法常用于 SentencePiece 中,该切分算法被 AlBERT,T5,mBART,Big Bird 和 XLNet 等模型广泛采用。 💡 本节将深入探讨 Unigram,甚至展示完整的实现过程。如果你只想大致了解 tokeni 阅读全文
posted @ 2025-08-27 14:54 有何m不可 阅读(32) 评论(0) 推荐(0)
摘要: WordPiece Tokenization 算法 WordPiece 是 Google 开发的用于 BERT 预训练的分词算法。自此之后,很多基于 BERT 的 Transformer 模型都复用了这种方法,比如 DistilBERT,MobileBERT,Funnel Transformers 阅读全文
posted @ 2025-08-27 14:30 有何m不可 阅读(45) 评论(0) 推荐(0)
摘要: BPE tokenization 算法 字节对编码(BPE)最初被开发为一种压缩文本的算法,然后在预训练 GPT 模型时被 OpenAI 用于 tokenization。许多 Transformer 模型都使用它,包括 GPT、GPT-2、RoBERTa、BART 和 DeBERTa。 💡 本节深 阅读全文
posted @ 2025-08-27 14:21 有何m不可 阅读(64) 评论(0) 推荐(0)
摘要: 标准化和预分词 在深入探讨 Transformer 模型常用的三种分词算法(字节对编码[BPE]、WordPiece 和 Unigram)之前,我们首先来看看 tokenizer 对文本进行了哪些预处理。以下是 tokenization 过程的高度概括: 在分词(根据其模型)之前,tokenizer 阅读全文
posted @ 2025-08-27 11:38 有何m不可 阅读(26) 评论(0) 推荐(0)
摘要: 在 QA 管道中使用快速 tokenizer 我们现在将深入研究 question-answering 管道,看看如何利用偏移量从上下文(context)中获取当前问题的答案,这与我们在上一节中处理分组实体的方式有些相似。我们会看到如何处理那些因为过长而最终被截断的上下文(context)。如果你对 阅读全文
posted @ 2025-08-27 11:34 有何m不可 阅读(16) 评论(0) 推荐(0)
摘要: 快速 tokenizer 的特殊能力 在本节中,我们将仔细研究 🤗 Transformers 中 tokenizer 的功能。到目前为止,我们只使用它们来对文本进行 tokenize 或将token ID 解码回文本,但是 tokenizer —— 特别是由🤗 Tokenizers 库支持的 t 阅读全文
posted @ 2025-08-27 11:16 有何m不可 阅读(26) 评论(0) 推荐(0)
摘要: 基于已有的 tokenizer 训练新的 tokenizer 如果你感兴趣的语言中没有可用的语言模型,或者你的语料库与语言模型训练时所使用的语料库差异很大,你可能需要从零开始重新训练一个适应你的数据的 tokenizer 模型。训练一个新的 tokenizer 是什么意思呢?从我们在 第二章 中第一 阅读全文
posted @ 2025-08-27 11:02 有何m不可 阅读(87) 评论(0) 推荐(0)
摘要: 本章简介 在 第三章 中,我们研究了如何在特定任务上微调模型。当我们需要微调模型时,我们需要使用与模型预训练相同的 tokenizer —— 但是当我们想从头开始训练模型时应该选用哪个 tokenizer ?使用在来自其他领域或语言的语料库上预训练的 tokenizer 通常不是最理想的。例如,在英 阅读全文
posted @ 2025-08-27 10:52 有何m不可 阅读(20) 评论(0) 推荐(0)
摘要: 🤗 Datasets,完结! 这是对 🤗 Datasets 库的一次完整的探索——祝贺你走到这一步!凭借从本章中获得的知识,你应该能够: 从任何地方加载数据集,无论是 Hugging Face Hub、你的笔记本电脑还是你公司的远程服务器。 混合使用 Dataset.map() 和 Datase 阅读全文
posted @ 2025-08-27 10:51 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要: 使用 FAISS 进行语义搜索 在 第5小节 ,我们创建了一个 🤗 Datasets 仓库的 GitHub issues 和评论组成的数据集。在本节,我们将使用这些信息构建一个搜索引擎,帮助我们找到关于该库的最相关的 issue 的答案! 使用文本嵌入进行语义搜索 正如我们在 第一章 ,学习的,基 阅读全文
posted @ 2025-08-27 10:50 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要: 创建自己的数据集 有时,不存在现有的合适的数据集适用于你构建 NLP 应用,因此你需要自己创建。在本节中,我们将向你展示如何创建一个由 GitHub issues 组成的的语料库,这些 issues 通常用于跟踪 GitHub 仓库中的错误或功能。该语料库可用于各种应用场景,包括: 探索解决 iss 阅读全文
posted @ 2025-08-27 10:40 有何m不可 阅读(73) 评论(0) 推荐(0)
摘要: 大数据?🤗 Datasets 应对有方! 如今,处理 GB 级别的数据集已不再罕见,特别是如果你打算从头开始预训练像 BERT 或者 GPT-2 这样的 Transormer 模型。在这种情况下,甚至 加载(load) 数据集都可能成为挑战。例如,用于预训练 GPT-2 的 WebText 语料库 阅读全文
posted @ 2025-08-27 10:30 有何m不可 阅读(26) 评论(0) 推荐(0)