随笔分类 -  深度学习框架pytorch

摘要:1:transformer结构 2:单个的encoder 2.1输入部分 2.1.1embedding 2.1.2位置编码 【注】RNN是按照时间线展开,单词的先后顺序没有被忽略。而transformer是并行处理的,故增快了速度,忽略了单词之间的先后顺序。 2.2注意力机制 2.2.1注意力机制 阅读全文
posted @ 2021-09-28 00:14 收购阿里巴巴 阅读(123) 评论(0) 推荐(0)
摘要:详细参考:https://ptorch.com/news/77.html 阅读全文
posted @ 2021-08-30 19:50 收购阿里巴巴 阅读(15) 评论(0) 推荐(0)
摘要:1:js散度的缺陷 [注]由于噪声的存在,起初不可能与真实数据的分布有重合,故会导致js一直得不到更新,而v对G的梯度也会一直处于0的状态,故会导致training不稳定。 2:解决思想:如下图 【注】其思想如两座不同的山一样,可以通过选择一种最好的方案,使得所需要移动土的距离最小。 「住」对w进行 阅读全文
posted @ 2021-08-18 21:34 收购阿里巴巴 阅读(461) 评论(0) 推荐(0)
摘要:1:纳什均衡-D 【注】当固定G时,D将进化成 2:纳什均衡-G 【注】当D*固定之后,最大化的max固定,会引导G使得V达到最下化。 【注】当KL=0时,L(G,D*)达到最小化min。此时Pr=Pg。此时D*=1/2。也验证了,当鉴别器和生成器的能录都达到1/2时,达到一个均衡,生成器生成的效果 阅读全文
posted @ 2021-08-18 20:26 收购阿里巴巴 阅读(184) 评论(0) 推荐(0)
摘要:1:GAN原理 【注】Generator 生成器,Discriminator鉴别器 2:如何train? 【注】生成器尽可能去减小Value以达到骗过鉴别器的目的。鉴别器尽可能去最大化V的值以达到最好的鉴别效果。 【注】鉴别器通过D网络将输入x得到D(x)。生成器通过G网络将输入z,得到一个分布概率 阅读全文
posted @ 2021-08-18 19:27 收购阿里巴巴 阅读(58) 评论(0) 推荐(0)
摘要:1:Denoising AutoEncoders去噪自编码网络 2.Dropout AutoEncoders断掉部分网络连接的自编码网络 【注】从右边的直方图分别为loss,acc随着dropout变化而变化的直方图。可以看出,当dropout=0时,loss最小可能会导致过拟合现象的发生,所以在a 阅读全文
posted @ 2021-08-17 20:23 收购阿里巴巴 阅读(115) 评论(0) 推荐(0)
摘要:1:自编码原理 【注】无监督学习的数据是没有标签的一类数据。 【注】自编码原理实际就是数据通过网络训练(升维以及降维),重够数据本身。 【注】MINiST数据集就是binary input类型的输入,其也属于real-valued input。但是real-valued input不一定属于bina 阅读全文
posted @ 2021-08-17 18:19 收购阿里巴巴 阅读(312) 评论(0) 推荐(0)
摘要:1:仅供参考: 【注】百万级参数为中级模型 阅读全文
posted @ 2021-08-17 17:28 收购阿里巴巴 阅读(67) 评论(0) 推荐(0)
摘要:1:迁移学习的实现原理 【注】这里的new Classifier为新的分类器,也就是网络层中的全连接层nn.liner(input_size,out_size)这里的out_size为需要分类的数量,即out_size=num_catogary(需要分为几类) [注]总结:迁移学习,简而言之就是少量 阅读全文
posted @ 2021-08-16 23:20 收购阿里巴巴 阅读(208) 评论(0) 推荐(0)
摘要:1:自定义数据集 [注]每一个文件中对应弄干张相同种类但是不同状态的图片。比如:若干张不同状态小狗的图片。 (1.1)初始化 class Pokemon(Dataset): def __int__(self,root,resize,mode): 【注】上图中第二张图片,sorted的位置错误,应该用 阅读全文
posted @ 2021-08-14 19:42 收购阿里巴巴 阅读(76) 评论(0) 推荐(0)
摘要:1:nn.LSTM [注]h_size=c_size 2:nn.LSTMCell 阅读全文
posted @ 2021-08-09 18:52 收购阿里巴巴 阅读(46) 评论(0) 推荐(0)
摘要:1:LSTM记忆单元 2:LSTM记忆单元的3道门 (2.1)遗忘门 [注]f_t是遗忘门(可以理解为记忆单元的保留门)的开度由于经过了sigmoid函数取值在[0,1]之间。σ为sigmoid函数 【注】为记忆单元(注:记忆单元不再是h_t) (2.2)输入门 【注】i_t为输入门的开度,取值在【 阅读全文
posted @ 2021-08-09 18:16 收购阿里巴巴 阅读(98) 评论(0) 推荐(0)
摘要:1:RNN训练难题:梯度爆炸以及梯度弥散 (1.1)原因 [注]由于W**k的存在导致梯度出现爆炸或者弥散 2:解决办法 (2.1)梯度爆炸的解决办法:梯度压缩 [注]可以通过对w的梯度进行压缩:(w.grad/||w.gard||)*threashold解决梯度爆炸的问题 【注】norm()函数可 阅读全文
posted @ 2021-08-09 17:13 收购阿里巴巴 阅读(67) 评论(0) 推荐(0)
摘要:1:正弦曲线下一段波形的预测 (1.1)数据采样 [注]这里的x,y我没有理解是什么含义 2:网络结构的创建 3:train 4:test [注]ravel()为打平操作 [注]pred的形状为[b,seq,feature len],hidden_pre的形状为[b,h,h dim]这里的h dim 阅读全文
posted @ 2021-08-08 21:45 收购阿里巴巴 阅读(165) 评论(0) 推荐(0)
摘要:1:RNN layer的计算 【注】这里W的shape为[hidden len,feature len],hidden len意思是每句话的当前单词需要用多少个不同的W向量进行提取特征(结果将feature len压缩成hidden len实现降维)。feature len的意思是由于每个单词由fe 阅读全文
posted @ 2021-08-08 11:51 收购阿里巴巴 阅读(113) 评论(0) 推荐(0)
摘要:1:循环神经网络的基本思想 2:向后传播的推导过程(怎样进行参数优化) [注]最总选择哪一个ht可以选择最后一个也可以将所有的ht综合一下。 [注]Wih为输入的共享参数权重(weight)。Whh为记忆单元的共享参数权重(weight)。 [注]若i=0时,会出现记忆单元权重的k次方。如下图 阅读全文
posted @ 2021-08-06 20:34 收购阿里巴巴 阅读(53) 评论(0) 推荐(0)
摘要:1:时间序列的表示 [注] 第一种表示为:一个时间戳为一个batch,一个batch含有word num个单词,每个单词由word vec个特征构成 第二种表示为:一个batch含有word num个单词,每个单词由word vec个特征构成 2:序列编码以及查询 【注】nn.Embedding(p 阅读全文
posted @ 2021-08-06 19:20 收购阿里巴巴 阅读(104) 评论(0) 推荐(0)
摘要:1:数据量小的几种解决方案: [注]减小的参数量.规范化迫使一部分参数接近于0.数据增强. 2:Data argumentation 数据增强 (2.1)Flip翻转 [注] RandomHorizontalFlip()水平翻转 RandomVerticalFlip()竖直翻转 这里的Random实 阅读全文
posted @ 2021-08-06 17:19 收购阿里巴巴 阅读(89) 评论(0) 推荐(0)
摘要:1:nn.Module的介绍 2.nn.module的好处 (2.1)embed current layers现成的神经网络计算的模块 (2.2)提供了Sequential容器 [注]在forward时,不需要多个forward只需要使用self.net(x)即可实现整个网络的forward。 (2 阅读全文
posted @ 2021-08-05 18:46 收购阿里巴巴 阅读(135) 评论(0) 推荐(0)
摘要:1:经典卷积神经网络 (1)LeNet-5 (2)AlexNet (3)VGG 【注】VGG发现更小的卷积核有更好的效果 [注]c为channel (4)GoogLeNet inception网络结构 [注]Inception module主要是使用多个不同大小的卷积核,使得GoogLeNet在同一 阅读全文
posted @ 2021-08-05 16:38 收购阿里巴巴 阅读(62) 评论(0) 推荐(0)