摘要:
创建自己的数据集 有时,不存在现有的合适的数据集适用于你构建 NLP 应用,因此你需要自己创建。在本节中,我们将向你展示如何创建一个由 GitHub issues 组成的的语料库,这些 issues 通常用于跟踪 GitHub 仓库中的错误或功能。该语料库可用于各种应用场景,包括: 探索解决 iss 阅读全文
posted @ 2025-08-27 10:40
有何m不可
阅读(74)
评论(0)
推荐(0)
摘要:
大数据?🤗 Datasets 应对有方! 如今,处理 GB 级别的数据集已不再罕见,特别是如果你打算从头开始预训练像 BERT 或者 GPT-2 这样的 Transormer 模型。在这种情况下,甚至 加载(load) 数据集都可能成为挑战。例如,用于预训练 GPT-2 的 WebText 语料库 阅读全文
posted @ 2025-08-27 10:30
有何m不可
阅读(26)
评论(0)
推荐(0)

浙公网安备 33010602011771号