自然语言处理基础知识 - 随笔分类 - 啥123

Bert模型

摘要：Bert模型具有两个预训练任务，分别是 Masked LM 和 Next Sentence Prediction。 BERT 的第一个预训练任务是 Masked LM，在句子中随机遮盖一部分单词，然后同时利用上下文的信息预测遮盖的单词，这样可以更好地根据全文理解单词的意思。第二个预训练任务是Next 阅读全文

posted @ 2022-11-13 16:10 啥123 阅读(180) 评论(0) 推荐(0)

nlp对抗训练

摘要：对抗训练参考博客：https://wmathor.com/index.php/archives/1537/ 虚拟对抗训练：https://zhuanlan.zhihu.com/p/96106267 阅读全文

posted @ 2022-04-21 20:45 啥123 阅读(43) 评论(0) 推荐(0)

Gradient Harmonizing Mechanism（梯度协调机制）

摘要：1问题描述下面这个式子是交叉熵损失函数，ｐ代表预测值，ｐ＊代表标签的真实值。如果ｐ＝sigmoid（ｘ），损失函数L对ｘ求导可以得到下面的这个式子：我们定义了ｇ这一变量，它的含义是梯度范数ｇ的值代表了样本预测的难易程度，ｇ的值越大，代表预测越困难。预测值ｐ与真实值ｐ＊越接近，ｇ的值越小，下面阅读全文

posted @ 2022-04-21 10:51 啥123 阅读(416) 评论(0) 推荐(0)

nn.Embedding()函数理解

摘要：torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None 阅读全文

posted @ 2022-04-05 22:31 啥123 阅读(930) 评论(0) 推荐(0)

Bert获取词向量的过程

摘要：参考博客：https://blog.csdn.net/u011984148/article/details/99921480 1.把我们要获取词向量的句子进行分词处理，再根据模型中的vocab.txt获取每个词的对应的索引。 token初始化 tokenized_text = tokenizer.t 阅读全文

posted @ 2022-04-01 11:40 啥123 阅读(3088) 评论(0) 推荐(0)

pytorch requires_grad = True的意思

摘要：计算图通常包含两种元素，一个是 tensor，另一个是 Function。张量 tensor 不必多说，但是大家可能对 Function 比较陌生。这里 Function 指的是在计算图中某个节点（node）所进行的运算，比如加减乘除卷积等等之类的，Function 内部有 forward() 和阅读全文

posted @ 2022-03-18 17:05 啥123 阅读(1756) 评论(0) 推荐(0)

训练集、验证集和测试集区别

摘要：我们在进行模型评估和选择的时候，先将数据集随机分为训练集、验证集和测试集，然后用训练集训练模型，用验证集验证模型，根据情况不断调整模型，选择其中最好的模型，再用训练集和测试集训练模型得到一个最好的模型，最后用测试集评估最终的模型。训练集训练集是用于模型拟合数据样本。验证集是模型训练过程中单独阅读全文

posted @ 2022-03-02 20:33 啥123 阅读(2150) 评论(0) 推荐(0)

BEP概述

摘要：Byte-Pair-Encoding是用于解决未登录词的一种方法。首先简单提一句什么是未登录词，未登录词可以理解为训练语料库中没有出现的，但是在测试语料库中出现的词。我们在处理NLP任务时，通常会根据语料生成一个词典，把语料中词频大于某个阈值的词放入词典中，而低于该阈值的词统统编码成"#UNK"。这阅读全文

posted @ 2022-02-28 21:31 啥123 阅读(935) 评论(0) 推荐(0)

情感词典和常用显示情感数据集

摘要：阅读全文

posted @ 2022-02-25 17:18 啥123 阅读(40) 评论(0) 推荐(0)

tensorflow安装无法导入

摘要：1.查看本地安装版本 pip list 记住自己的版本，方便第二步进行卸载 2.卸载本地版本 pip uninstall tensorflow==2.1.0 #我的版本是2.1.0 3.查看是否卸载 pip list 4.安装1.12.0版本 pip install tensorflow==1.12 阅读全文

posted @ 2022-02-24 09:55 啥123 阅读(406) 评论(0) 推荐(0)

transformer模型

摘要：参考博客：https://blog.csdn.net/u012526436/article/details/86295971 讲解非常好！模型使用 Layer normalization而不使用Batch normalization的原因见之前博客。网络层数较深的时候会出现网络退化问题，就是层数阅读全文

posted @ 2022-02-23 10:05 啥123 阅读(1102) 评论(0) 推荐(0)

模型评价指标

摘要：精确率就是指模型所预测出的这类样本中有多少样本是猜对了的。召回率是指原来真实的这类样本有多少被找出来了。阅读全文

posted @ 2022-02-08 17:05 啥123 阅读(27) 评论(0) 推荐(0)

隐马尔可夫模型

摘要：隐马尔可夫模型定义隐马尔可夫模型是描述两个时序序列联合分布p(x,y)的概率模型，x序列外界可见，称为观测序列；y序列外界不可见，称为状态序列。比如观测x为单词，状态y为词性。隐马尔可夫模型利用三个要素来模拟时序序列的发生过程，初始状态概率向量，状态转移概率矩阵和发射概率矩阵。其中为初始时刻阅读全文

posted @ 2021-12-22 22:53 啥123 阅读(174) 评论(0) 推荐(0)

PMI点互信息算法

摘要：一、点互信息算法点互信息算法是为了计算两个词语之间的相关性，公式如下： p(word1 & word2)代表的是两个单词同时出现的概率（两个单词同时出现的次数/总词数的平方） p(word1）是word1出现的概率（word1出现的次数/总次数） p(word2）是word2出现的概率（word1 阅读全文

posted @ 2021-12-19 20:50 啥123 阅读(1505) 评论(0) 推荐(0)

SKEP模型

摘要：1.SKEP是百度研究团队提出的基于情感知识增强的情感预训练算法，此算法采用无监督方法自动挖掘情感知识，然后利用情感知识构建预训练目标，从而让机器学会理解情感语义。SKEP为各类情感分析任务提供统一且强大的情感语义表示。SKEP采用ＲｏＢＥＲＴａ作为基线模型。RoBERTa相对于BERT的改进之处如阅读全文

posted @ 2021-12-11 19:37 啥123 阅读(2131) 评论(0) 推荐(0)

pycharm配置Bert模型运行参数

摘要：在github官网上，我们可以看到通过控制台运行run_classifier.py并加入相关训练参数可以进行模型的训练，在pycharm中，我们可以提前写好训练参数，直接点运行按钮就可以进行模型的训练，操作步骤如下： 1.右击项目中的run_classifier.py文件，选择Edit'run_cl 阅读全文

posted @ 2021-11-20 17:34 啥123 阅读(1023) 评论(0) 推荐(0)

Batch Normalization

摘要：BN层和卷积层池化层一样，都是一个神经网络层，BN层在使用激活函数之前。 BN层的操作步骤参考博客：https://blog.csdn.net/gongliming_/article/details/90214338?utm_medium=distribute.pc_relevant.none-t 阅读全文

posted @ 2021-11-13 16:53 啥123 阅读(26) 评论(0) 推荐(0)

归一化

摘要：为什么需要归一化？如果我们判断一个人的身体健康状况，有两个指标，一个是身高另一个是体重，假如身高1.6米，体重120斤，y=3*1.6+2*120,如果身高变为1.9对结果的影响是增加了0.9，但是如果体重变成130，对结果的影响就是增加30，显然身高1.9米看起来变化更大，但是他对结果的影响较小阅读全文

posted @ 2021-11-13 15:37 啥123 阅读(248) 评论(0) 推荐(0)

Attention模型

摘要：1.seq2seq模型有遗忘问题和对齐问题，attention在原来的seq2seq模型上做出了改进，在decoder编码阶段它的输入变为原来向量的加权求和，赋予每个向量不同的权重。获取权重的方式：找一个向量ｑ与输入句子的每个词的向量进行比较，如果两个向量相近则获得的权重比较高。计算权重的方式：阅读全文

posted @ 2021-11-06 16:05 啥123 阅读(235) 评论(0) 推荐(0)

模型训练中的epoch batchsize

摘要：Epoch 一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。由于数据量太大，无法一次将所有数据送入模型，因此采用分批次送入模型的方式，在训练时，将所有数据迭代训练一次是不够的，需要反复多次才能拟合收敛。 Batch Size 每次送入网络中训练的一部分数据，而Batch Si 阅读全文

posted @ 2021-10-31 17:48 啥123 阅读(395) 评论(0) 推荐(0)

随笔分类 - 自然语言处理基础知识