teanon

2022年10月20日

摘要： pipelines 是使用模型进行推理的一种很好且简单的方法。这些pipelines 是从库中抽象出大部分复杂代码的对象，提供了一个简单的API，专门用于多个任务，包括命名实体识别、屏蔽语言建模、情感分析、特征提取和问答等。参数说明初始化pipeline时可能的参数： task (str) — 阅读全文

posted @ 2022-10-20 14:33 teanon 阅读(2164) 评论(0) 推荐(0)

2022年10月18日

多标签文本分类

摘要：多标签文本分类是指一个输入文本样本对应有多种标签。本文是一个训练多标签文本分类任务的实例：训练过程 main.py 导入相关的库： # coding=utf-8 import os # os.environ["CUDA_VISIBLE_DEVICES"] = "2" os.environ["WAN 阅读全文

posted @ 2022-10-18 17:23 teanon 阅读(1584) 评论(1) 推荐(0)

2022年9月23日

KMP 算法实现

摘要： # coding=utf-8 def get_next_list(findding_str): # O(m) # 求一个字符串序列每个位置的最长相等前、后缀 j = 0 # 最长相等前缀的末位 next = [0] # next 数组用于保存字符串每个位置的最长相等前、后缀的长度值 # i 是最长相阅读全文

posted @ 2022-09-23 16:30 teanon 阅读(161) 评论(0) 推荐(0)

2022年8月19日

Loading Methods

摘要： Datasets datasets.list_datasets **return：**List all the datasets scripts available on the Hugging Face Hub. from datasets import list_datasets # 展示HFh 阅读全文

posted @ 2022-08-19 15:52 teanon 阅读(2210) 评论(0) 推荐(0)

2022年8月13日

transformers 之Trainer对应的数据加载

摘要：基础信息说明本文以Seq2SeqTrainer作为实例，来讨论其模型训练时的数据加载方式预训练模型：opus-mt-en-zh 数据集：本地数据集任务：en-zh 机器翻译数据加载 Trainer的数据加载方式主要分为两种：基于torch.utils.data.Dataset的方式加载和阅读全文

posted @ 2022-08-13 15:12 teanon 阅读(7085) 评论(0) 推荐(0)

2022年7月8日

GBDT初识

摘要： GBDT的决策树：无论是处理回归任务还是二分类以及多分类任务，GBDT使用的决策树是CART回归树。因为GBDT每次迭代要拟合的是梯度值，是连续值所以要用回归树。对于回归树算法来说最重要的是寻找最佳的划分点，那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标阅读全文

posted @ 2022-07-08 17:43 teanon 阅读(166) 评论(0) 推荐(0)

2022年6月22日

docker容器SSH服务自启动

摘要：使用ubuntu容器，会在容器内安装ssh服务，但是会发现当容器重启后，如何实现ssh服务自动重启呢？可以使用Dockerfile参看此处，本文介绍一种在docker容器中进行配置的方法安装ssh服务检查容器中是否有ssh服务 $ /etc/init.d/ssh status 若没有相关ssh 阅读全文

posted @ 2022-06-22 16:13 teanon 阅读(9936) 评论(0) 推荐(2)

2022年2月26日

ALBERT论文简读

摘要：问题描述预训练自然语言表征时，增加模型的参数量通常可以是模型在下有任务中性能提升。但是这种做法对硬件设备的要求较高（当下的各种SOTA模型动辄数亿甚至数十亿个参数，倘若要扩大模型规模，这个内存问题是无法回避的），也会显著地降低训练效率(由于通信开销与模型中参数的数量成正比，在分布式训练中训练速度将阅读全文

posted @ 2022-02-26 18:01 teanon 阅读(239) 评论(0) 推荐(0)

2022年2月25日

ERNIE1-2

摘要： ERNIE1.0 ERNIE: Enhanced Representation through Knowledge Integration提出了三种级别的masking：（1）word piece级别的mask，与bert相同；（2）phrase level masking ，对句子中的短语进行ma 阅读全文

posted @ 2022-02-25 18:08 teanon 阅读(98) 评论(0) 推荐(0)

公告