上一页 1 2 3 4 5 6 7 8 9 ··· 21 下一页
摘要: Token 分类 我们将首先探讨的应用是 Token 分类。这个通用任务涵盖了所有可以表述为“给句子中的词或字贴上标签”的问题,例如: 实体命名识别 (NER):找出句子中的实体(如人物、地点或组织)。这可以通过为每个实体指定一个类别的标签,如果没有实体则会输出无实体的标签。 词性标注 (POS): 阅读全文
posted @ 2025-08-27 16:41 有何m不可 阅读(31) 评论(0) 推荐(0)
摘要: 章节简介 在 第三章 ,你了解了如何微调文本分类模型。在本章中,我们将处理以下常见的 NLP 任务: Token 分类 掩码语言建模(如 BERT) 文本摘要 翻译 因果语言建模预训练(如 GPT-2) 问答 为此,你需要充分利用在 第三章 中学到的有关 Trainer API 和 🤗 Accel 阅读全文
posted @ 2025-08-27 16:20 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要: tokenizer 回顾! 恭喜你完成了这一章! 在深入研究 tokenizer 之后,你应该: 能够使用旧的 tokenizer 作为模板来训练新的 tokenizer 了解如何使用偏移量将 tokens 的位置映射到其原始文本范围 了解 BPE、WordPiece 和 Unigram 之间的区别 阅读全文
posted @ 2025-08-27 16:17 有何m不可 阅读(26) 评论(0) 推荐(0)
摘要: 模块化构建 tokenizer 正如我们在前几节中看到的,tokenization 包括几个步骤: 标准化(任何认为必要的文本清理,例如删除空格或重音符号、Unicode 规范化等) 预分词(将输入拆分为单词) 通过模型处理输入(使用预先拆分的词来生成一系列 tokens ) 后处理(添加 toke 阅读全文
posted @ 2025-08-27 16:14 有何m不可 阅读(110) 评论(0) 推荐(0)
摘要: Unigram Tokenization 算法 Unigram 算法常用于 SentencePiece 中,该切分算法被 AlBERT,T5,mBART,Big Bird 和 XLNet 等模型广泛采用。 💡 本节将深入探讨 Unigram,甚至展示完整的实现过程。如果你只想大致了解 tokeni 阅读全文
posted @ 2025-08-27 14:54 有何m不可 阅读(49) 评论(0) 推荐(0)
摘要: WordPiece Tokenization 算法 WordPiece 是 Google 开发的用于 BERT 预训练的分词算法。自此之后,很多基于 BERT 的 Transformer 模型都复用了这种方法,比如 DistilBERT,MobileBERT,Funnel Transformers 阅读全文
posted @ 2025-08-27 14:30 有何m不可 阅读(81) 评论(0) 推荐(0)
摘要: BPE tokenization 算法 字节对编码(BPE)最初被开发为一种压缩文本的算法,然后在预训练 GPT 模型时被 OpenAI 用于 tokenization。许多 Transformer 模型都使用它,包括 GPT、GPT-2、RoBERTa、BART 和 DeBERTa。 💡 本节深 阅读全文
posted @ 2025-08-27 14:21 有何m不可 阅读(123) 评论(0) 推荐(0)
摘要: 标准化和预分词 在深入探讨 Transformer 模型常用的三种分词算法(字节对编码[BPE]、WordPiece 和 Unigram)之前,我们首先来看看 tokenizer 对文本进行了哪些预处理。以下是 tokenization 过程的高度概括: 在分词(根据其模型)之前,tokenizer 阅读全文
posted @ 2025-08-27 11:38 有何m不可 阅读(48) 评论(0) 推荐(0)
摘要: 在 QA 管道中使用快速 tokenizer 我们现在将深入研究 question-answering 管道,看看如何利用偏移量从上下文(context)中获取当前问题的答案,这与我们在上一节中处理分组实体的方式有些相似。我们会看到如何处理那些因为过长而最终被截断的上下文(context)。如果你对 阅读全文
posted @ 2025-08-27 11:34 有何m不可 阅读(28) 评论(0) 推荐(0)
摘要: 快速 tokenizer 的特殊能力 在本节中,我们将仔细研究 🤗 Transformers 中 tokenizer 的功能。到目前为止,我们只使用它们来对文本进行 tokenize 或将token ID 解码回文本,但是 tokenizer —— 特别是由🤗 Tokenizers 库支持的 t 阅读全文
posted @ 2025-08-27 11:16 有何m不可 阅读(62) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 21 下一页