摘要: pipelines 是使用模型进行推理的一种很好且简单的方法。这些pipelines 是从库中抽象出大部分复杂代码的对象,提供了一个简单的API,专门用于多个任务,包括命名实体识别、屏蔽语言建模、情感分析、特征提取和问答等。 参数说明 初始化pipeline时可能的参数: task (str) — 阅读全文
posted @ 2022-10-20 14:33 teanon 阅读(1817) 评论(0) 推荐(0) 编辑
摘要: 多标签文本分类是指一个输入文本样本对应有多种标签。本文是一个训练多标签文本分类任务的实例: 训练过程 main.py 导入相关的库: # coding=utf-8 import os # os.environ["CUDA_VISIBLE_DEVICES"] = "2" os.environ["WAN 阅读全文
posted @ 2022-10-18 17:23 teanon 阅读(1332) 评论(1) 推荐(0) 编辑
摘要: # coding=utf-8 def get_next_list(findding_str): # O(m) # 求一个字符串序列每个位置的最长相等前、后缀 j = 0 # 最长相等前缀的末位 next = [0] # next 数组用于保存字符串每个位置的最长相等前、后缀的长度值 # i 是最长相 阅读全文
posted @ 2022-09-23 16:30 teanon 阅读(88) 评论(0) 推荐(0) 编辑
摘要: Datasets datasets.list_datasets **return:**List all the datasets scripts available on the Hugging Face Hub. from datasets import list_datasets # 展示HFh 阅读全文
posted @ 2022-08-19 15:52 teanon 阅读(1783) 评论(0) 推荐(0) 编辑
摘要: 基础信息说明 本文以Seq2SeqTrainer作为实例,来讨论其模型训练时的数据加载方式 预训练模型:opus-mt-en-zh 数据集:本地数据集 任务:en-zh 机器翻译 数据加载 Trainer的数据加载方式主要分为两种:基于torch.utils.data.Dataset的方式加载 和 阅读全文
posted @ 2022-08-13 15:12 teanon 阅读(4726) 评论(0) 推荐(0) 编辑
摘要: GBDT的决策树: ​ 无论是处理回归任务还是二分类以及多分类任务,GBDT使用的决策树是CART回归树。因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。 ​ 对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标 阅读全文
posted @ 2022-07-08 17:43 teanon 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 使用ubuntu容器,会在容器内安装ssh服务,但是会发现当容器重启后,如何实现ssh服务自动重启呢?可以使用Dockerfile参看此处 ,本文介绍一种在docker容器中进行配置的方法 安装ssh服务 检查容器中是否有ssh服务 $ /etc/init.d/ssh status 若没有相关ssh 阅读全文
posted @ 2022-06-22 16:13 teanon 阅读(7549) 评论(0) 推荐(2) 编辑
摘要: 问题描述 预训练自然语言表征时,增加模型的参数量通常可以是模型在下有任务中性能提升。但是这种做法对硬件设备的要求较高(当下的各种SOTA模型动辄数亿甚至数十亿个参数,倘若要扩大模型规模,这个内存问题是无法回避的),也会显著地降低训练效率(由于通信开销与模型中参数的数量成正比,在分布式训练中训练速度将 阅读全文
posted @ 2022-02-26 18:01 teanon 阅读(132) 评论(0) 推荐(0) 编辑
摘要: ERNIE1.0 ERNIE: Enhanced Representation through Knowledge Integration提出了三种级别的masking:(1)word piece级别的mask,与bert相同;(2)phrase level masking ,对句子中的短语进行ma 阅读全文
posted @ 2022-02-25 18:08 teanon 阅读(49) 评论(0) 推荐(0) 编辑