随笔档案「2021年8月」 - 收购阿里巴巴

摘要：详细参考：https://ptorch.com/news/77.html 阅读全文

posted @ 2021-08-30 19:50 收购阿里巴巴阅读(17) 评论(0) 推荐(0)

摘要：1 阅读全文

posted @ 2021-08-22 19:58 收购阿里巴巴阅读(14) 评论(0) 推荐(0)

摘要：1：js散度的缺陷 [注]由于噪声的存在，起初不可能与真实数据的分布有重合，故会导致js一直得不到更新，而v对G的梯度也会一直处于0的状态，故会导致training不稳定。 2:解决思想：如下图【注】其思想如两座不同的山一样，可以通过选择一种最好的方案，使得所需要移动土的距离最小。「住」对w进行阅读全文

posted @ 2021-08-18 21:34 收购阿里巴巴阅读(466) 评论(0) 推荐(0)

31:GAN-DCGAN（deconvolution GAN逆卷积操作）以及JS散度的缺陷

摘要：1：DCGAN 阅读全文

posted @ 2021-08-18 21:13 收购阿里巴巴阅读(50) 评论(0) 推荐(0)

31:GAN-纳什均衡

摘要：1：纳什均衡-D 【注】当固定G时，D将进化成 2：纳什均衡-G 【注】当D*固定之后，最大化的max固定,会引导G使得V达到最下化。【注】当KL=0时，L(G,D*)达到最小化min。此时Pr=Pg。此时D*=1/2。也验证了，当鉴别器和生成器的能录都达到1/2时，达到一个均衡，生成器生成的效果阅读全文

posted @ 2021-08-18 20:26 收购阿里巴巴阅读(188) 评论(0) 推荐(0)

31：GAN-GAN原理

摘要：1：GAN原理【注】Generator 生成器，Discriminator鉴别器 2：如何train？【注】生成器尽可能去减小Value以达到骗过鉴别器的目的。鉴别器尽可能去最大化V的值以达到最好的鉴别效果。【注】鉴别器通过D网络将输入x得到D(x)。生成器通过G网络将输入z，得到一个分布概率阅读全文

posted @ 2021-08-18 19:27 收购阿里巴巴阅读(62) 评论(0) 推荐(0)

30：无监督学习-自编码网络的变种

摘要：1：Denoising AutoEncoders去噪自编码网络 2.Dropout AutoEncoders断掉部分网络连接的自编码网络【注】从右边的直方图分别为loss,acc随着dropout变化而变化的直方图。可以看出，当dropout=0时，loss最小可能会导致过拟合现象的发生，所以在a 阅读全文

posted @ 2021-08-17 20:23 收购阿里巴巴阅读(122) 评论(0) 推荐(0)

30:无监督学习-自编码（Auto-Encoder简称AE）原理

摘要：1：自编码原理【注】无监督学习的数据是没有标签的一类数据。【注】自编码原理实际就是数据通过网络训练（升维以及降维），重够数据本身。【注】MINiST数据集就是binary input类型的输入，其也属于real-valued input。但是real-valued input不一定属于bina 阅读全文

posted @ 2021-08-17 18:19 收购阿里巴巴阅读(324) 评论(0) 推荐(0)

如何打印网络的参数量

摘要：1：仅供参考：【注】百万级参数为中级模型阅读全文

posted @ 2021-08-17 17:28 收购阿里巴巴阅读(68) 评论(0) 推荐(0)

29:迁移学习（当数据集比较小时，可以使用迁移学习达到一个更好的效果）

摘要：1：迁移学习的实现原理【注】这里的new Classifier为新的分类器，也就是网络层中的全连接层nn.liner(input_size,out_size)这里的out_size为需要分类的数量，即out_size=num_catogary(需要分为几类) [注]总结：迁移学习，简而言之就是少量阅读全文

posted @ 2021-08-16 23:20 收购阿里巴巴阅读(213) 评论(0) 推荐(0)

28：自定义数据集的收集

摘要：1：自定义数据集 [注]每一个文件中对应弄干张相同种类但是不同状态的图片。比如：若干张不同状态小狗的图片。 (1.1)初始化 class Pokemon(Dataset): def __int__(self,root,resize,mode): 【注】上图中第二张图片，sorted的位置错误，应该用阅读全文

posted @ 2021-08-14 19:42 收购阿里巴巴阅读(83) 评论(0) 推荐(0)

1：深度学习环境的搭建

摘要：1.windows系统下（gpu版）一、安装anaconda Anacond的介绍Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda 的下载文件比较大（约 531 MB），如果只需要某些包，阅读全文

posted @ 2021-08-10 18:09 收购阿里巴巴阅读(183) 评论(0) 推荐(0)

27：RNN循环神经网络-LSTM的使用

摘要：1：nn.LSTM [注]h_size=c_size 2：nn.LSTMCell 阅读全文

posted @ 2021-08-09 18:52 收购阿里巴巴阅读(47) 评论(0) 推荐(0)

27：RNN循环神经网络-LSTM网络（解决RNN网络的梯度弥散问题）

摘要：1：LSTM记忆单元 2:LSTM记忆单元的3道门（2.1）遗忘门 [注]f_t是遗忘门（可以理解为记忆单元的保留门）的开度由于经过了sigmoid函数取值在[0,1]之间。σ为sigmoid函数【注】为记忆单元（注：记忆单元不再是h_t） (2.2)输入门【注】i_t为输入门的开度，取值在【阅读全文

posted @ 2021-08-09 18:16 收购阿里巴巴阅读(106) 评论(0) 推荐(0)

27：RNN循环神经网络-RNN训练难题

摘要：1：RNN训练难题：梯度爆炸以及梯度弥散（1.1）原因 [注]由于W**k的存在导致梯度出现爆炸或者弥散 2：解决办法（2.1）梯度爆炸的解决办法：梯度压缩 [注]可以通过对w的梯度进行压缩：(w.grad/||w.gard||)*threashold解决梯度爆炸的问题【注】norm()函数可阅读全文

posted @ 2021-08-09 17:13 收购阿里巴巴阅读(76) 评论(0) 推荐(0)

27：RNN循环神经网络-正弦曲线波形的预测案列

摘要：1：正弦曲线下一段波形的预测（1.1）数据采样 [注]这里的x,y我没有理解是什么含义 2:网络结构的创建 3：train 4：test [注]ravel()为打平操作 [注]pred的形状为[b,seq,feature len],hidden_pre的形状为[b,h,h dim]这里的h dim 阅读全文

posted @ 2021-08-08 21:45 收购阿里巴巴阅读(167) 评论(0) 推荐(0)

27：RNN循环神经网络-RNN layer

摘要：1:RNN layer的计算【注】这里W的shape为[hidden len,feature len],hidden len意思是每句话的当前单词需要用多少个不同的W向量进行提取特征（结果将feature len压缩成hidden len实现降维）。feature len的意思是由于每个单词由fe 阅读全文

posted @ 2021-08-08 11:51 收购阿里巴巴阅读(119) 评论(0) 推荐(0)

27:RNN循环神经网络-循环神经网络

摘要：1：循环神经网络的基本思想 2:向后传播的推导过程（怎样进行参数优化） [注]最总选择哪一个ht可以选择最后一个也可以将所有的ht综合一下。 [注]Wih为输入的共享参数权重(weight)。Whh为记忆单元的共享参数权重(weight)。 [注]若i=0时，会出现记忆单元权重的k次方。如下图阅读全文

posted @ 2021-08-06 20:34 收购阿里巴巴阅读(58) 评论(0) 推荐(0)

27:RNN循环神经网络-时间序列表示

摘要：1:时间序列的表示 [注] 第一种表示为:一个时间戳为一个batch,一个batch含有word num个单词,每个单词由word vec个特征构成第二种表示为:一个batch含有word num个单词,每个单词由word vec个特征构成 2:序列编码以及查询【注】nn.Embedding(p 阅读全文

posted @ 2021-08-06 19:20 收购阿里巴巴阅读(108) 评论(0) 推荐(0)

26:如何针对有限的数据量进行优化-数据增强

摘要：1:数据量小的几种解决方案: [注]减小的参数量.规范化迫使一部分参数接近于0.数据增强. 2:Data argumentation 数据增强 (2.1)Flip翻转 [注] RandomHorizontalFlip()水平翻转 RandomVerticalFlip()竖直翻转这里的Random实阅读全文

posted @ 2021-08-06 17:19 收购阿里巴巴阅读(94) 评论(0) 推荐(0)

25:nn.module

摘要：1:nn.Module的介绍 2.nn.module的好处（2.1）embed current layers现成的神经网络计算的模块（2.2）提供了Sequential容器 [注]在forward时，不需要多个forward只需要使用self.net(x)即可实现整个网络的forward。（2 阅读全文

posted @ 2021-08-05 18:46 收购阿里巴巴阅读(141) 评论(0) 推荐(0)

24:经典卷积神经网络

摘要：1：经典卷积神经网络 (1)LeNet-5 (2)AlexNet （3）VGG 【注】VGG发现更小的卷积核有更好的效果 [注]c为channel (4)GoogLeNet inception网络结构 [注]Inception module主要是使用多个不同大小的卷积核，使得GoogLeNet在同一阅读全文

posted @ 2021-08-05 16:38 收购阿里巴巴阅读(65) 评论(0) 推荐(0)

23：normlize规范化-batch normalization

摘要：1:为什么要进行normolize 【注】1：希望把输入的值控制在有效的范围内【注】希望能够进行高效的查询最优解。例如：当x2值大，x1值偏小时，w1的改变导致的影响较小，w2的改变导致的影响较大。 2:Normlization的种类 3：Batch Norm （3.1）Batch Norm的图解阅读全文

posted @ 2021-08-04 22:21 收购阿里巴巴阅读(171) 评论(0) 推荐(0)

22-2：卷积神经网络-池化

摘要：1：池化层（1）Pooling(类似于downsampling) [注]leNet-5卷积神经网络中的Subsampling是向下采样中的隔行采样。而AlexNet之后的卷积神经网络则开始采用Max pooling或者是Avg sampling采样。（1.1）Max pooling最大采样（1 阅读全文

posted @ 2021-08-04 20:33 收购阿里巴巴阅读(100) 评论(0) 推荐(0)

22-1：卷积神经网络-卷积(convolution)

摘要：1：卷积卷积操作在信号处理中的定义故卷积操作：对应单元元素相乘再相加（1）卷积核（1.1）锐化卷积核（1.2）模糊卷积核（1.3）边缘检测 2：卷积神经网络（2.1）卷积操作【注】 Kernel_channels:卷积核通道，表示使用的卷积核的种类个数 Input_channels: 阅读全文

posted @ 2021-08-03 20:21 收购阿里巴巴阅读(274) 评论(0) 推荐(0)

21:动量与学习率衰减

摘要：1：动量Momentum（惯性）【注】简而言之：下一个梯度方向等于当前梯度的更新方向和上一个梯度方向的共同方向。【注】当β=0，α!=0完全退化成没有添加动量的梯度更新 [注]当α和β都不等于0，则动量β有效，最优化时避免陷入局部极小值。【注】在pytorch中只需要在优化器SGD中添加参数m 阅读全文

posted @ 2021-08-02 21:58 收购阿里巴巴阅读(336) 评论(0) 推荐(0)

20：减弱过拟合

摘要：1：减弱过拟合reduce overfitting (1)regularization (1.1)Regularization函数 [注]λ为超参数（需要自己设置）迫使参数的一或者二范数逼近于0，。 decay衰减 (1.2)regularization的分类【注】pytorch中内嵌了L2-re 阅读全文

posted @ 2021-08-02 20:45 收购阿里巴巴阅读(45) 评论(0) 推荐(0)

19:train-val-test划分（以检测过拟合挑选最好的模型参数）

摘要：1：train-val-test数据集的划分（6：2：2） [注]val 数据集其实质也是test，其只不过是在train数据集中划分出来的test数据集以选择合适的参数（防止选择的参数出现过拟合现象如图1中，当Degrees=5时,参数的选择最好，大于5会出现过拟合现象）。 2：k-flod cr 阅读全文

posted @ 2021-08-02 19:15 收购阿里巴巴阅读(492) 评论(0) 推荐(0)

18：激活函数与GPU加速

摘要：1：激活函数 (1.1)Tanh和Sigmoid函数 [注]sigmoid函数的取值区间为[0,1],适合概率和RGB值的重建。Tanh函数的取值区间为[-1,1]，多用于循环神经网络。 sigmoid和Tanh函数存在的问题：当w的取值无穷大或者无穷小的时候会出现梯度弥散的现象。 (1.2)ReL 阅读全文

posted @ 2021-08-02 11:16 收购阿里巴巴阅读(355) 评论(0) 推荐(0)

17:全连接网络的创建以及参数优化（创建，训练，测试[计算准确度]，可视化）以及Flatten层的自定义代码

摘要：全连接层非常重要，学习后面的各种网络模型都会用到，比如：cNN,RNN等等。但是一般向以上的模型输入的都是四维张量，故通过卷积和LSTM之后输出是四维张量，但是全连接层需要输入二维张量。故需要用到打平层（Flatten层）,将后面的3个维度打平，才能输入到全连接层（nn.liner层）。由于pyto 阅读全文

posted @ 2021-08-01 19:42 收购阿里巴巴阅读(1526) 评论(0) 推荐(0)

收购阿里巴巴

08 2021 档案

公告