上一页 1 2 3 4 5 6 7 8 ··· 20 下一页
摘要: 精通自然语言处理 如果你在课程中做到了这一步,恭喜你——你现在拥有了用 🤗 Transformers 和 Hugging Face 生态系统解决(几乎)任何 NLP 任务所需的所有知识和工具! 我们见过很多不同的数据整理器,所以我们制作了这个小视频来帮助你找到每个任务使用哪一个: 在完成核心 NL 阅读全文
posted @ 2025-08-28 11:27 有何m不可 阅读(17) 评论(0) 推荐(0)
摘要: 抽取式问答问答 现在我们来看看问答这个任务!这个任务有很多种类型,但我们在本节将要关注的是称为 抽取式(extractive) 问题回答的形式。会有一些问题和文档,其中答案就在文档段落之内。 我们将使用 SQuAD 数据集 微调一个 BERT 模型,其中包括群众工作者对一组维基百科文章提出的问题。以 阅读全文
posted @ 2025-08-28 11:27 有何m不可 阅读(15) 评论(0) 推荐(0)
摘要: 从头开始训练因果语言模型 到目前为止,我们主要使用预训练模型,并通过复用预训练的权重,然后使用新的数据对它们进行微调,以适应新的应用场景。正如我们在 第一章 中看到的,这通常称为 迁移学习(transfer learning) ,对于大多数标注数据稀缺的应用场景,它是一种将 Transformer 阅读全文
posted @ 2025-08-28 10:53 有何m不可 阅读(26) 评论(0) 推荐(0)
摘要: 提取文本摘要 在本节中,我们将看看如何使用 Transformer 模型将长篇文档压缩为摘要,这项任务称为文本摘要。这是最具挑战性的自然语言处理(NLP)任务之一,因为它需要一系列能力,例如理解长篇文章并且生成能够捕捉文档中主要主题的连贯文本。但是,如果做得好,文本摘要是一种强大的工具,可以减轻各个 阅读全文
posted @ 2025-08-27 19:41 有何m不可 阅读(33) 评论(0) 推荐(0)
摘要: 翻译 现在让我们深入研究翻译。这是另一个 sequence-to-sequence 任务 ,着这是一个可以表述为输入是一个序列输出另一个序列的问题。从这个意义上说,这个问题非常类似 文本摘要 ,并且你可以将我们将在此处学习到的一些技巧迁移到其他的序列到序列问题,例如: 风格迁移 创建一个模型将某种风 阅读全文
posted @ 2025-08-27 19:20 有何m不可 阅读(30) 评论(0) 推荐(0)
摘要: 微调掩码语言模型(masked language model) 对于许多涉及 Transformer 模型的 NLP 任务,你可以简单地从 Hugging Face Hub 中获取一个预训练的模型,然后直接在你的数据上对其进行微调,以完成手头的任务。只要用于预训练的语料库与用于微调的语料库没有太大区 阅读全文
posted @ 2025-08-27 19:05 有何m不可 阅读(39) 评论(0) 推荐(0)
摘要: Token 分类 我们将首先探讨的应用是 Token 分类。这个通用任务涵盖了所有可以表述为“给句子中的词或字贴上标签”的问题,例如: 实体命名识别 (NER):找出句子中的实体(如人物、地点或组织)。这可以通过为每个实体指定一个类别的标签,如果没有实体则会输出无实体的标签。 词性标注 (POS): 阅读全文
posted @ 2025-08-27 16:41 有何m不可 阅读(22) 评论(0) 推荐(0)
摘要: 章节简介 在 第三章 ,你了解了如何微调文本分类模型。在本章中,我们将处理以下常见的 NLP 任务: Token 分类 掩码语言建模(如 BERT) 文本摘要 翻译 因果语言建模预训练(如 GPT-2) 问答 为此,你需要充分利用在 第三章 中学到的有关 Trainer API 和 🤗 Accel 阅读全文
posted @ 2025-08-27 16:20 有何m不可 阅读(13) 评论(0) 推荐(0)
摘要: tokenizer 回顾! 恭喜你完成了这一章! 在深入研究 tokenizer 之后,你应该: 能够使用旧的 tokenizer 作为模板来训练新的 tokenizer 了解如何使用偏移量将 tokens 的位置映射到其原始文本范围 了解 BPE、WordPiece 和 Unigram 之间的区别 阅读全文
posted @ 2025-08-27 16:17 有何m不可 阅读(14) 评论(0) 推荐(0)
摘要: 模块化构建 tokenizer 正如我们在前几节中看到的,tokenization 包括几个步骤: 标准化(任何认为必要的文本清理,例如删除空格或重音符号、Unicode 规范化等) 预分词(将输入拆分为单词) 通过模型处理输入(使用预先拆分的词来生成一系列 tokens ) 后处理(添加 toke 阅读全文
posted @ 2025-08-27 16:14 有何m不可 阅读(57) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 20 下一页