随笔分类 - 基础常用
一些搜集的知识点
摘要:池化层在NLP应用 想看CS224N NLP with Deep Learning(十一):NLP中的CNN 池化的作用则是对特征进行“总结”,即对特征进行压缩,提取主要特征。NLP中最常用的池化操作是max-over-time Pooling,即用特征在所有时间步的最大值来代表特征,还可参考此 M
阅读全文
摘要:主要用于记录一些比较常用的函数,便于查找。未记录的可查看PYTORCH TUTORIALS,PyTorch中文文档 torch.unsqueeze 主要用于在某一位置添加一个维度 x = torch.tensor([1, 2, 3, 4]) torch.unsqueeze(x, 0) torch.u
阅读全文
摘要:参考自李宏毅老师的self-atention的课程 pd下载:self-atention、Transformer 理论说明 在NLP中,常用的计算两个向量之间相关性的方法有以下两种: self-attention中用的就是左侧的类型,将两个向量乘以一个可训练权重,然后将结构进行对应相乘,得到最终的相
阅读全文
摘要:参考自HawardScut 很多的 loss 函数都有 size_average 和 reduce 两个布尔类型的参数。因为一般损失函数都是直接计算 batch 的数据,因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。 (1)如果 reduce = False,那么 si
阅读全文
摘要:本问参考自原文连接 ##1 什么是 Encoder-Decoder ? Encoder-Decoder 模型主要是 NLP 领域里的概念。它并不特值某种具体的算法,而是一类算法的统称。Encoder-Decoder 算是一个通用的框架,在这个框架下可以使用不同的算法来解决不同的任务。 Encoder
阅读全文
摘要:参考自原文链接 目的其实就是为了控制变量。 比如说你为了提升baseline的性能,给它加了两个模块A,B,加完之后效果果然提高了很多。于是你急急忙忙开始写论文,写到你的贡献,你给了两条:1.模块A,2.模块B。 但是这样写有个问题:尽管AB同时加上去对模型有提升效果,但是你并没有证明A、B两个模块
阅读全文
摘要:参考自知乎上的一篇回答,本文在此基础上将英文部分翻译成中文,并简单概括以便于阅读。 彭明辉教授的《研究生手册》 1,将论文一整批的读到某一个层次,而不是逐篇读懂。 (1)读论文的次序,就是由粗而细,每读完一轮,你对这问题的知识就增加一层。根据这一层知识就可以问出下一层更细致的问题,再根据这些更细致的
阅读全文
浙公网安备 33010602011771号