随笔分类 -  自然语言处理基础知识

1 2 下一页
Bert模型
摘要:Bert模型具有两个预训练任务,分别是 Masked LM 和 Next Sentence Prediction。 BERT 的第一个预训练任务是 Masked LM,在句子中随机遮盖一部分单词,然后同时利用上下文的信息预测遮盖的单词,这样可以更好地根据全文理解单词的意思。第二个预训练任务是Next 阅读全文
posted @ 2022-11-13 16:10 啥123 阅读(180) 评论(0) 推荐(0)
nlp对抗训练
摘要:对抗训练参考博客:https://wmathor.com/index.php/archives/1537/ 虚拟对抗训练:https://zhuanlan.zhihu.com/p/96106267 阅读全文
posted @ 2022-04-21 20:45 啥123 阅读(43) 评论(0) 推荐(0)
Gradient Harmonizing Mechanism(梯度协调机制)
摘要:1问题描述 下面这个式子是交叉熵损失函数,p代表预测值,p*代表标签的真实值。 如果p=sigmoid(x),损失函数L对x求导可以得到下面的这个式子: 我们定义了g这一变量,它的含义是梯度范数 g的值代表了样本预测的难易程度,g的值越大,代表预测越困难。预测值p与真实值p*越接近,g的值越小,下面 阅读全文
posted @ 2022-04-21 10:51 啥123 阅读(416) 评论(0) 推荐(0)
nn.Embedding()函数理解
摘要:torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None 阅读全文
posted @ 2022-04-05 22:31 啥123 阅读(930) 评论(0) 推荐(0)
Bert获取词向量的过程
摘要:参考博客:https://blog.csdn.net/u011984148/article/details/99921480 1.把我们要获取词向量的句子进行分词处理,再根据模型中的vocab.txt获取每个词的对应的索引。 token初始化 tokenized_text = tokenizer.t 阅读全文
posted @ 2022-04-01 11:40 啥123 阅读(3088) 评论(0) 推荐(0)
pytorch requires_grad = True的意思
摘要:计算图通常包含两种元素,一个是 tensor,另一个是 Function。张量 tensor 不必多说,但是大家可能对 Function 比较陌生。这里 Function 指的是在计算图中某个节点(node)所进行的运算,比如加减乘除卷积等等之类的,Function 内部有 forward() 和 阅读全文
posted @ 2022-03-18 17:05 啥123 阅读(1756) 评论(0) 推荐(0)
训练集、验证集和测试集区别
摘要:我们在进行模型评估和选择的时候,先将数据集随机分为训练集、验证集和测试集,然后用训练集训练模型,用验证集验证模型,根据情况不断调整模型,选择其中最好的模型,再用训练集和测试集训练模型得到一个最好的模型,最后用测试集评估最终的模型。 训练集 训练集是用于模型拟合数据样本。 验证集 是模型训练过程中单独 阅读全文
posted @ 2022-03-02 20:33 啥123 阅读(2150) 评论(0) 推荐(0)
BEP概述
摘要:Byte-Pair-Encoding是用于解决未登录词的一种方法。首先简单提一句什么是未登录词,未登录词可以理解为训练语料库中没有出现的,但是在测试语料库中出现的词。我们在处理NLP任务时,通常会根据语料生成一个词典,把语料中词频大于某个阈值的词放入词典中,而低于该阈值的词统统编码成"#UNK"。这 阅读全文
posted @ 2022-02-28 21:31 啥123 阅读(935) 评论(0) 推荐(0)
情感词典和常用显示情感数据集
摘要: 阅读全文
posted @ 2022-02-25 17:18 啥123 阅读(40) 评论(0) 推荐(0)
tensorflow安装无法导入
摘要:1.查看本地安装版本 pip list 记住自己的版本,方便第二步进行卸载 2.卸载本地版本 pip uninstall tensorflow==2.1.0 #我的版本是2.1.0 3.查看是否卸载 pip list 4.安装1.12.0版本 pip install tensorflow==1.12 阅读全文
posted @ 2022-02-24 09:55 啥123 阅读(406) 评论(0) 推荐(0)
transformer模型
摘要:参考博客:https://blog.csdn.net/u012526436/article/details/86295971 讲解非常好! 模型使用 Layer normalization而不使用Batch normalization的原因见之前博客。 网络层数较深的时候会出现网络退化问题,就是层数 阅读全文
posted @ 2022-02-23 10:05 啥123 阅读(1102) 评论(0) 推荐(0)
模型评价指标
摘要:精确率就是指模型所预测出的这类样本中有多少样本是猜对了的。 召回率是指原来真实的这类样本有多少被找出来了。 阅读全文
posted @ 2022-02-08 17:05 啥123 阅读(27) 评论(0) 推荐(0)
隐马尔可夫模型
摘要:隐马尔可夫模型定义 隐马尔可夫模型是描述两个时序序列联合分布p(x,y)的概率模型,x序列外界可见,称为观测序列;y序列外界不可见,称为状态序列。比如观测x为单词,状态y为词性。 隐马尔可夫模型利用三个要素来模拟时序序列的发生过程,初始状态概率向量,状态转移概率矩阵和发射概率矩阵。 其中 为初始时刻 阅读全文
posted @ 2021-12-22 22:53 啥123 阅读(174) 评论(0) 推荐(0)
PMI点互信息算法
摘要:一、点互信息算法 点互信息算法是为了计算两个词语之间的相关性,公式如下: p(word1 & word2)代表的是两个单词同时出现的概率(两个单词同时出现的次数/总词数的平方) p(word1)是word1出现的概率(word1出现的次数/总次数) p(word2)是word2出现的概率(word1 阅读全文
posted @ 2021-12-19 20:50 啥123 阅读(1505) 评论(0) 推荐(0)
SKEP模型
摘要:1.SKEP是百度研究团队提出的基于情感知识增强的情感预训练算法,此算法采用无监督方法自动挖掘情感知识,然后利用情感知识构建预训练目标,从而让机器学会理解情感语义。SKEP为各类情感分析任务提供统一且强大的情感语义表示。SKEP采用RoBERTa作为基线模型。RoBERTa相对于BERT的改进之处如 阅读全文
posted @ 2021-12-11 19:37 啥123 阅读(2131) 评论(0) 推荐(0)
pycharm配置Bert模型运行参数
摘要:在github官网上,我们可以看到通过控制台运行run_classifier.py并加入相关训练参数可以进行模型的训练,在pycharm中,我们可以提前写好训练参数,直接点运行按钮就可以进行模型的训练,操作步骤如下: 1.右击项目中的run_classifier.py文件,选择Edit'run_cl 阅读全文
posted @ 2021-11-20 17:34 啥123 阅读(1023) 评论(0) 推荐(0)
Batch Normalization
摘要:BN层和卷积层 池化层一样,都是一个神经网络层,BN层在使用激活函数之前。 BN层的操作步骤参考博客:https://blog.csdn.net/gongliming_/article/details/90214338?utm_medium=distribute.pc_relevant.none-t 阅读全文
posted @ 2021-11-13 16:53 啥123 阅读(26) 评论(0) 推荐(0)
归一化
摘要:为什么需要归一化? 如果我们判断一个人的身体健康状况,有两个指标,一个是身高另一个是体重,假如身高1.6米,体重120斤,y=3*1.6+2*120,如果身高变为1.9对结果的影响是增加了0.9,但是如果体重变成130,对结果的影响就是增加30,显然身高1.9米看起来变化更大,但是他对结果的影响较小 阅读全文
posted @ 2021-11-13 15:37 啥123 阅读(248) 评论(0) 推荐(0)
Attention模型
摘要:1.seq2seq模型有遗忘问题和对齐问题,attention在原来的seq2seq模型上做出了改进,在decoder编码阶段它的输入变为原来向量的加权求和,赋予每个向量不同的权重。 获取权重的方式:找一个向量q与输入句子的每个词的向量进行比较,如果两个向量相近则获得的权重比较高。 计算权重的方式: 阅读全文
posted @ 2021-11-06 16:05 啥123 阅读(235) 评论(0) 推荐(0)
模型训练中的epoch batchsize
摘要:Epoch 一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。由于数据量太大,无法一次将所有数据送入模型,因此采用分批次送入模型的方式,在训练时,将所有数据迭代训练一次是不够的,需要反复多次才能拟合收敛。 Batch Size 每次送入网络中训练的一部分数据,而Batch Si 阅读全文
posted @ 2021-10-31 17:48 啥123 阅读(395) 评论(0) 推荐(0)

1 2 下一页