会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
CJK'sBLOG
一蓑烟雨任平生
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
13
下一页
2022年9月24日
NLP之基于BERT的预测掩码标记和句间关系判断
摘要: BERT @ 程序步骤 设置基本变量值,数据预处理 构建输入样本 在样本集中随机选取a和b两个句子 把ab两个句子合并为1个模型输入句,在句首加入分类符CLS,在ab中间和句末加入分隔符SEP 在模型输入句中随机选取15%单词准备用于mask, 再在这个些选中的单词中,按照论文策略进行mask 把所
阅读全文
posted @ 2022-09-24 17:50 CJK'sBLOG
阅读(190)
评论(0)
推荐(0)
2022年9月23日
python: m个位置,每个位置有n种可能,求所有排列结果
摘要: >>> import itertools >>> m, n = 3, 2 >>> paths = list(itertools.product(range(n), repeat=m)) >>> print(paths) [(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1,
阅读全文
posted @ 2022-09-23 22:41 CJK'sBLOG
阅读(72)
评论(0)
推荐(0)
python 矩阵切片
摘要: 假设n是一个numpy或者torch.tensor张量,那么 n[a:b,c:d]则代表从a到b行(不含b行),c到d列(不含d列)的切片 当然,ab、cd中的数是可以省略掉,只要abcd中有一个数即可 import torch m = [[-1.5805, 1.6342, 0.2004, 0.19
阅读全文
posted @ 2022-09-23 20:57 CJK'sBLOG
阅读(140)
评论(0)
推荐(0)
2022年9月18日
NLP之基于Transformer的句子翻译
摘要: Transformer 1.理论 1.1 Model Structure 1.2 Multi-Head Attention & Scaled Dot-Product Attention 2.实验 2.1 束搜索 束搜索过程示意图: 2.2 Issue 贪婪搜索和束搜索 贪婪搜索和束搜索都是针对多个时
阅读全文
posted @ 2022-09-18 23:27 CJK'sBLOG
阅读(207)
评论(0)
推荐(0)
2022年9月15日
NLP之基于Bi-LSTM和注意力机制的文本情感分类
摘要: Bi-LSTM(Attention) @ 1.理论 1.1 文本分类和预测(翻译) 文本分类的输入处理和预测(翻译)不同: 预测(翻译)通常用eye()把每个输入向量转换为one-hot向量, 但文本分类模型通常用Embedding初始化一个嵌入矩阵用来训练,不需要one-hot向量 1.2 注意力
阅读全文
posted @ 2022-09-15 13:01 CJK'sBLOG
阅读(353)
评论(0)
推荐(0)
2022年9月14日
基于Seq2Seq和注意力机制的句子翻译
摘要: Seq2Seq(Attention) 1.理论 1.1 机器翻译 1.1.1 模型输出结果处理 在解码过程之后,由输出结果获得预测单词y的方法有以下几种: 贪婪法(Greedy Search): 根据字面意思,就是经过softmax之后取argmax,这种方式是最简单的,但也存在着问题:局部最优不一
阅读全文
posted @ 2022-09-14 16:35 CJK'sBLOG
阅读(102)
评论(0)
推荐(0)
2022年9月12日
NLP之基于Seq2Seq的单词翻译
摘要: Seq2Seq 1.理论 1.1 基本概念 在RNN模型需要解决的问题中,有一类M to N的问题,即输入输出不等长问题,例如机器翻译和生成概述。这种结构又叫做Seq2Seq模型,或者叫Encoder-Decoder模型。 1.2 模型结构 1.2.1 Encoder Encoder可以直接用一个R
阅读全文
posted @ 2022-09-12 15:49 CJK'sBLOG
阅读(117)
评论(0)
推荐(0)
2022年9月10日
NLP之Bi-LSTM(在长句中预测下一个单词)
摘要: Bi-LSTM @ 1.理论 1.1 基本模型 Bi-LSTM模型分为2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM模型进行特征提取,将2个输出向量进行拼接后形成的词向量作为该词的最终特征表达(因此底层维度是普通LSTM隐藏层维度的两倍) 1.2 Bi-LSTM的特点 Bi-LSTM
阅读全文
posted @ 2022-09-10 08:52 CJK'sBLOG
阅读(651)
评论(0)
推荐(0)
NLP之TextLSTM(预测单词下一个字母)
摘要: LSTM 1.理论 1.1 LSTM与RNN 1.1.1 RNN的缺点 如果训练非常深的神经网络,对这个网络做从左到右的前向传播和而从右到左的后向传播,会发现输出$y^{}$很难传播回去,很难影响前面的权重,这样的梯度消失问题使得RNN常常出现局部效应,不擅长处理长期依赖的问题 和梯度爆炸不同的是,
阅读全文
posted @ 2022-09-10 08:50 CJK'sBLOG
阅读(243)
评论(0)
推荐(0)
2022年9月8日
NLP之TextRNN(预测下一个单词)
摘要: TextRNN @ 1.基本概念 1.1 RNN和CNN的区别 并非刚性地记忆所有固定⻓度的序列,⽽是通过隐藏状态来存储之前时间步的信息 1.2 RNN的几种结构 一对一,一对多,多对一,多对多(长度相等/不等) 多个输入时,由a和x生成y和下一个a, 这一过程可以用nn.GRU和nn.LSTM模块
阅读全文
posted @ 2022-09-08 23:44 CJK'sBLOG
阅读(370)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
13
下一页