上一页 1 2 3 4 5 6 7 8 ··· 13 下一页
摘要: BERT @ 程序步骤 设置基本变量值,数据预处理 构建输入样本 在样本集中随机选取a和b两个句子 把ab两个句子合并为1个模型输入句,在句首加入分类符CLS,在ab中间和句末加入分隔符SEP 在模型输入句中随机选取15%单词准备用于mask, 再在这个些选中的单词中,按照论文策略进行mask 把所 阅读全文
posted @ 2022-09-24 17:50 CJK'sBLOG 阅读(190) 评论(0) 推荐(0)
摘要: >>> import itertools >>> m, n = 3, 2 >>> paths = list(itertools.product(range(n), repeat=m)) >>> print(paths) [(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 阅读全文
posted @ 2022-09-23 22:41 CJK'sBLOG 阅读(72) 评论(0) 推荐(0)
摘要: 假设n是一个numpy或者torch.tensor张量,那么 n[a:b,c:d]则代表从a到b行(不含b行),c到d列(不含d列)的切片 当然,ab、cd中的数是可以省略掉,只要abcd中有一个数即可 import torch m = [[-1.5805, 1.6342, 0.2004, 0.19 阅读全文
posted @ 2022-09-23 20:57 CJK'sBLOG 阅读(140) 评论(0) 推荐(0)
摘要: Transformer 1.理论 1.1 Model Structure 1.2 Multi-Head Attention & Scaled Dot-Product Attention 2.实验 2.1 束搜索 束搜索过程示意图: 2.2 Issue 贪婪搜索和束搜索 贪婪搜索和束搜索都是针对多个时 阅读全文
posted @ 2022-09-18 23:27 CJK'sBLOG 阅读(207) 评论(0) 推荐(0)
摘要: Bi-LSTM(Attention) @ 1.理论 1.1 文本分类和预测(翻译) 文本分类的输入处理和预测(翻译)不同: 预测(翻译)通常用eye()把每个输入向量转换为one-hot向量, 但文本分类模型通常用Embedding初始化一个嵌入矩阵用来训练,不需要one-hot向量 1.2 注意力 阅读全文
posted @ 2022-09-15 13:01 CJK'sBLOG 阅读(353) 评论(0) 推荐(0)
摘要: Seq2Seq(Attention) 1.理论 1.1 机器翻译 1.1.1 模型输出结果处理 在解码过程之后,由输出结果获得预测单词y的方法有以下几种: 贪婪法(Greedy Search): 根据字面意思,就是经过softmax之后取argmax,这种方式是最简单的,但也存在着问题:局部最优不一 阅读全文
posted @ 2022-09-14 16:35 CJK'sBLOG 阅读(102) 评论(0) 推荐(0)
摘要: Seq2Seq 1.理论 1.1 基本概念 在RNN模型需要解决的问题中,有一类M to N的问题,即输入输出不等长问题,例如机器翻译和生成概述。这种结构又叫做Seq2Seq模型,或者叫Encoder-Decoder模型。 1.2 模型结构 1.2.1 Encoder Encoder可以直接用一个R 阅读全文
posted @ 2022-09-12 15:49 CJK'sBLOG 阅读(117) 评论(0) 推荐(0)
摘要: Bi-LSTM @ 1.理论 1.1 基本模型 Bi-LSTM模型分为2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM模型进行特征提取,将2个输出向量进行拼接后形成的词向量作为该词的最终特征表达(因此底层维度是普通LSTM隐藏层维度的两倍) 1.2 Bi-LSTM的特点 Bi-LSTM 阅读全文
posted @ 2022-09-10 08:52 CJK'sBLOG 阅读(651) 评论(0) 推荐(0)
摘要: LSTM 1.理论 1.1 LSTM与RNN 1.1.1 RNN的缺点 如果训练非常深的神经网络,对这个网络做从左到右的前向传播和而从右到左的后向传播,会发现输出$y^{}$很难传播回去,很难影响前面的权重,这样的梯度消失问题使得RNN常常出现局部效应,不擅长处理长期依赖的问题 和梯度爆炸不同的是, 阅读全文
posted @ 2022-09-10 08:50 CJK'sBLOG 阅读(243) 评论(0) 推荐(0)
摘要: TextRNN @ 1.基本概念 1.1 RNN和CNN的区别 并非刚性地记忆所有固定⻓度的序列,⽽是通过隐藏状态来存储之前时间步的信息 1.2 RNN的几种结构 一对一,一对多,多对一,多对多(长度相等/不等) 多个输入时,由a和x生成y和下一个a, 这一过程可以用nn.GRU和nn.LSTM模块 阅读全文
posted @ 2022-09-08 23:44 CJK'sBLOG 阅读(370) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 13 下一页