CJK'sBLOG

2022年9月24日

摘要： BERT @ 程序步骤设置基本变量值,数据预处理构建输入样本在样本集中随机选取a和b两个句子把ab两个句子合并为1个模型输入句,在句首加入分类符CLS,在ab中间和句末加入分隔符SEP 在模型输入句中随机选取15%单词准备用于mask, 再在这个些选中的单词中,按照论文策略进行mask 把所阅读全文

posted @ 2022-09-24 17:50 CJK'sBLOG 阅读(190) 评论(0) 推荐(0)

2022年9月23日

python: m个位置,每个位置有n种可能,求所有排列结果

摘要： >>> import itertools >>> m, n = 3, 2 >>> paths = list(itertools.product(range(n), repeat=m)) >>> print(paths) [(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 阅读全文

posted @ 2022-09-23 22:41 CJK'sBLOG 阅读(72) 评论(0) 推荐(0)

python 矩阵切片

摘要：假设n是一个numpy或者torch.tensor张量,那么 n[a:b,c:d]则代表从a到b行(不含b行),c到d列(不含d列)的切片当然,ab、cd中的数是可以省略掉,只要abcd中有一个数即可 import torch m = [[-1.5805, 1.6342, 0.2004, 0.19 阅读全文

posted @ 2022-09-23 20:57 CJK'sBLOG 阅读(140) 评论(0) 推荐(0)

2022年9月18日

NLP之基于Transformer的句子翻译

摘要： Transformer 1.理论 1.1 Model Structure 1.2 Multi-Head Attention & Scaled Dot-Product Attention 2.实验 2.1 束搜索束搜索过程示意图: 2.2 Issue 贪婪搜索和束搜索贪婪搜索和束搜索都是针对多个时阅读全文

posted @ 2022-09-18 23:27 CJK'sBLOG 阅读(207) 评论(0) 推荐(0)

2022年9月15日

NLP之基于Bi-LSTM和注意力机制的文本情感分类

摘要： Bi-LSTM(Attention) @ 1.理论 1.1 文本分类和预测(翻译) 文本分类的输入处理和预测(翻译)不同: 预测(翻译)通常用eye()把每个输入向量转换为one-hot向量, 但文本分类模型通常用Embedding初始化一个嵌入矩阵用来训练,不需要one-hot向量 1.2 注意力阅读全文

posted @ 2022-09-15 13:01 CJK'sBLOG 阅读(353) 评论(0) 推荐(0)

2022年9月14日

基于Seq2Seq和注意力机制的句子翻译

摘要： Seq2Seq(Attention) 1.理论 1.1 机器翻译 1.1.1 模型输出结果处理在解码过程之后,由输出结果获得预测单词y的方法有以下几种：贪婪法(Greedy Search): 根据字面意思,就是经过softmax之后取argmax,这种方式是最简单的，但也存在着问题：局部最优不一阅读全文

posted @ 2022-09-14 16:35 CJK'sBLOG 阅读(102) 评论(0) 推荐(0)

2022年9月12日

NLP之基于Seq2Seq的单词翻译

摘要： Seq2Seq 1.理论 1.1 基本概念在RNN模型需要解决的问题中，有一类M to N的问题，即输入输出不等长问题,例如机器翻译和生成概述。这种结构又叫做Seq2Seq模型，或者叫Encoder-Decoder模型。 1.2 模型结构 1.2.1 Encoder Encoder可以直接用一个R 阅读全文

posted @ 2022-09-12 15:49 CJK'sBLOG 阅读(117) 评论(0) 推荐(0)

2022年9月10日

NLP之Bi-LSTM(在长句中预测下一个单词)

摘要： Bi-LSTM @ 1.理论 1.1 基本模型 Bi-LSTM模型分为2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM模型进行特征提取,将2个输出向量进行拼接后形成的词向量作为该词的最终特征表达(因此底层维度是普通LSTM隐藏层维度的两倍) 1.2 Bi-LSTM的特点 Bi-LSTM 阅读全文

posted @ 2022-09-10 08:52 CJK'sBLOG 阅读(651) 评论(0) 推荐(0)

NLP之TextLSTM(预测单词下一个字母)

摘要： LSTM 1.理论 1.1 LSTM与RNN 1.1.1 RNN的缺点如果训练非常深的神经网络,对这个网络做从左到右的前向传播和而从右到左的后向传播,会发现输出$y^{}$很难传播回去,很难影响前面的权重,这样的梯度消失问题使得RNN常常出现局部效应,不擅长处理长期依赖的问题和梯度爆炸不同的是, 阅读全文

posted @ 2022-09-10 08:50 CJK'sBLOG 阅读(243) 评论(0) 推荐(0)

2022年9月8日

NLP之TextRNN(预测下一个单词)

摘要： TextRNN @ 1.基本概念 1.1 RNN和CNN的区别并非刚性地记忆所有固定⻓度的序列，⽽是通过隐藏状态来存储之前时间步的信息 1.2 RNN的几种结构一对一,一对多,多对一,多对多(长度相等/不等) 多个输入时,由a和x生成y和下一个a, 这一过程可以用nn.GRU和nn.LSTM模块阅读全文

posted @ 2022-09-08 23:44 CJK'sBLOG 阅读(370) 评论(0) 推荐(0)

一蓑烟雨任平生