随笔分类 -  AI

摘要:本章简介 在 第二章 我们探索了如何使用 Tokenizer 和预训练模型进行预测。那么如何使用自己的数据集微调预训练模型呢?本章将解决这个问题!你将学到: 如何从模型中心(hub)加载大型数据集 如何使用高级的 Trainer API 微调一个模型 如何使用自定义训练过程 如何利用🤗 Accel 阅读全文
posted @ 2025-08-26 14:40 有何m不可 阅读(11) 评论(0) 推荐(0)
摘要:基本用法完成! 恭喜你跟随课程走到这里!回顾一下,在这一章中,你已经: 学习了 Transformers 模型的基本构造块。 了解了 Tokenizer 管道的组成。 了解了如何在实践中使用 Transformers 模型。 学习了如何利用 tokenizer 将文本转换为模型可以理解的张量。 设定 阅读全文
posted @ 2025-08-26 14:38 有何m不可 阅读(15) 评论(0) 推荐(0)
摘要:综合应用 在过去的几个章节中,我们已经尝试尽可能手动完成大部分工作。我们探索了 tokenizer 的运行机制,并且了解了分词、转换为 inputs ID、填充、截断以及注意力掩码的处理方式。 然而,正如我们在第二节中看到的那样,🤗 Transformers API 能够通过一个高级函数为我们处理 阅读全文
posted @ 2025-08-26 14:37 有何m不可 阅读(8) 评论(0) 推荐(0)
摘要:处理多个序列 在上一节中,我们探讨了最简单的案例:对一个较短的句子进行推理。然而,一些问题已经出现: 我们如何处理多个句子? 我们如何处理不同长度的多个句子? 词汇索引是唯一可以让模型运行的输入吗? 是否存在句子太长的问题? 让我们看看这些问题会带来什么样的问题,以及如何使用🤗 Transform 阅读全文
posted @ 2025-08-26 14:31 有何m不可 阅读(11) 评论(0) 推荐(0)
摘要:Tokenizers tokenizer 是 NLP 管道的核心组件之一。它们有一个非常明确的目的:将文本转换为模型可以处理的数据。模型只能处理数字,因此 tokenizer 需要将我们的文本输入转换为数字。在本节中,我们将确切地探讨 tokenization 管道中发生的事情。 在 NLP 任务中 阅读全文
posted @ 2025-08-26 14:26 有何m不可 阅读(56) 评论(0) 推荐(0)
摘要:模型 在本节中,我们将更详细地了解如何创建和使用模型。我们将使用 AutoModel 类,当你希望从 checkpoint 实例化任何模型时,使用它非常方便。 AutoModel 类及其所有的相关类其实就是对库中可用的各种模型的简单包装。它是一个智能的包装,因为它可以自动猜测你的 checkpoin 阅读全文
posted @ 2025-08-26 11:54 有何m不可 阅读(22) 评论(0) 推荐(0)
摘要:Pipeline 的内部 这是第一部分,根据你使用 PyTorch 或者 TensorFlow,内容略有不同。点击标题上方的平台,选择你喜欢的平台! 让我们从一个完整的示例开始,看看在 第一章 中执行以下代码时在幕后发生了什么 from transformers import pipeline cl 阅读全文
posted @ 2025-08-26 11:22 有何m不可 阅读(12) 评论(0) 推荐(0)
摘要:本章简介 正如你在 第一章 ,中看到的那样,Transformers 模型通常规模庞大。包含数以百万计到数千万计数十亿的参数,训练和部署这些模型是一项复杂的任务。再者,新模型的推出几乎日新月异,而每种模型都有其独特的实现方式,尝试全部模型绝非易事。 🤗 Transformers 库应运而生,就是为 阅读全文
posted @ 2025-08-26 11:13 有何m不可 阅读(22) 评论(0) 推荐(0)
摘要:总结 在本章中,你了解了如何使用来自🤗Transformers 的高级函数 pipeline() 处理不同的 NLP 任务。你还了解了如何在模型中心(hub)中搜索和使用模型,以及如何使用推理 API 直接在浏览器中测试模型。 我们从最终的效果的角度讨论了 Transformer 模型的工作方式, 阅读全文
posted @ 2025-08-26 11:11 有何m不可 阅读(16) 评论(0) 推荐(0)
摘要:偏见和局限性 如果你打算在正式的项目中使用经过预训练或经过微调的模型。请注意:虽然这些模型是很强大,但它们也有局限性。其中最大的一个问题是,为了对大量数据进行预训练,研究人员通常会搜集所有他们能找到的所有文字内容,中间可能夹带一些意识形态或者价值观的刻板印象。 为了快速解释清楚这个问题,让我们回到一 阅读全文
posted @ 2025-08-26 10:40 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要:编码器-解码器模型 编码器-解码器模型(也称为序列到序列模型)同时使用 Transformer 架构的编码器和解码器两个部分。在每个阶段,编码器的注意力层可以访问输入句子中的所有单词,而解码器的注意力层只能访问位于输入中将要预测单词前面的单词。 这些模型的预训练可以使用训练编码器或解码器模型的方式来 阅读全文
posted @ 2025-08-26 10:37 有何m不可 阅读(21) 评论(0) 推荐(0)