摘要:
Unigram Tokenization 算法 Unigram 算法常用于 SentencePiece 中,该切分算法被 AlBERT,T5,mBART,Big Bird 和 XLNet 等模型广泛采用。 💡 本节将深入探讨 Unigram,甚至展示完整的实现过程。如果你只想大致了解 tokeni 阅读全文
posted @ 2025-08-27 14:54
有何m不可
阅读(32)
评论(0)
推荐(0)
摘要:
WordPiece Tokenization 算法 WordPiece 是 Google 开发的用于 BERT 预训练的分词算法。自此之后,很多基于 BERT 的 Transformer 模型都复用了这种方法,比如 DistilBERT,MobileBERT,Funnel Transformers 阅读全文
posted @ 2025-08-27 14:30
有何m不可
阅读(45)
评论(0)
推荐(0)
摘要:
BPE tokenization 算法 字节对编码(BPE)最初被开发为一种压缩文本的算法,然后在预训练 GPT 模型时被 OpenAI 用于 tokenization。许多 Transformer 模型都使用它,包括 GPT、GPT-2、RoBERTa、BART 和 DeBERTa。 💡 本节深 阅读全文
posted @ 2025-08-27 14:21
有何m不可
阅读(64)
评论(0)
推荐(0)
摘要:
标准化和预分词 在深入探讨 Transformer 模型常用的三种分词算法(字节对编码[BPE]、WordPiece 和 Unigram)之前,我们首先来看看 tokenizer 对文本进行了哪些预处理。以下是 tokenization 过程的高度概括: 在分词(根据其模型)之前,tokenizer 阅读全文
posted @ 2025-08-27 11:38
有何m不可
阅读(26)
评论(0)
推荐(0)
摘要:
在 QA 管道中使用快速 tokenizer 我们现在将深入研究 question-answering 管道,看看如何利用偏移量从上下文(context)中获取当前问题的答案,这与我们在上一节中处理分组实体的方式有些相似。我们会看到如何处理那些因为过长而最终被截断的上下文(context)。如果你对 阅读全文
posted @ 2025-08-27 11:34
有何m不可
阅读(16)
评论(0)
推荐(0)
摘要:
快速 tokenizer 的特殊能力 在本节中,我们将仔细研究 🤗 Transformers 中 tokenizer 的功能。到目前为止,我们只使用它们来对文本进行 tokenize 或将token ID 解码回文本,但是 tokenizer —— 特别是由🤗 Tokenizers 库支持的 t 阅读全文
posted @ 2025-08-27 11:16
有何m不可
阅读(26)
评论(0)
推荐(0)
摘要:
基于已有的 tokenizer 训练新的 tokenizer 如果你感兴趣的语言中没有可用的语言模型,或者你的语料库与语言模型训练时所使用的语料库差异很大,你可能需要从零开始重新训练一个适应你的数据的 tokenizer 模型。训练一个新的 tokenizer 是什么意思呢?从我们在 第二章 中第一 阅读全文
posted @ 2025-08-27 11:02
有何m不可
阅读(87)
评论(0)
推荐(0)
摘要:
本章简介 在 第三章 中,我们研究了如何在特定任务上微调模型。当我们需要微调模型时,我们需要使用与模型预训练相同的 tokenizer —— 但是当我们想从头开始训练模型时应该选用哪个 tokenizer ?使用在来自其他领域或语言的语料库上预训练的 tokenizer 通常不是最理想的。例如,在英 阅读全文
posted @ 2025-08-27 10:52
有何m不可
阅读(20)
评论(0)
推荐(0)
摘要:
🤗 Datasets,完结! 这是对 🤗 Datasets 库的一次完整的探索——祝贺你走到这一步!凭借从本章中获得的知识,你应该能够: 从任何地方加载数据集,无论是 Hugging Face Hub、你的笔记本电脑还是你公司的远程服务器。 混合使用 Dataset.map() 和 Datase 阅读全文
posted @ 2025-08-27 10:51
有何m不可
阅读(20)
评论(0)
推荐(0)
摘要:
使用 FAISS 进行语义搜索 在 第5小节 ,我们创建了一个 🤗 Datasets 仓库的 GitHub issues 和评论组成的数据集。在本节,我们将使用这些信息构建一个搜索引擎,帮助我们找到关于该库的最相关的 issue 的答案! 使用文本嵌入进行语义搜索 正如我们在 第一章 ,学习的,基 阅读全文
posted @ 2025-08-27 10:50
有何m不可
阅读(21)
评论(0)
推荐(0)

浙公网安备 33010602011771号