随笔分类 - Deep Learning
摘要:1. 为什么会出现图卷积神经网络? 普通卷积神经网络研究的对象是具备Euclidean domains的数据,Euclidean domains data数据最显著的特征是他们具有规则的空间结构,如图片是规则的正方形,语音是规则的一维序列等,这些特征都可以用一维或二维的矩阵来表示,卷积神经网络处理起
阅读全文
摘要:创建tensor: 1.numpy向量转tensor: a=np.array([2,2,2]) b=torch.from_numpy(a) 2.列表转tensor: a=torch.tensor([2,2]) b=torch.FloatTensor([2,2.])#不常用 c=torch.tenso
阅读全文
摘要:由上述推导可以看出,在使用MSE时,w、b的梯度均与sigmoid函数对z的偏导有关系,而sigmoid函数的偏导在自变量非常大或者非常小时,偏导数的值接近于零,这将导致w、b的梯度将不会变化,也就是出现所谓的梯度消失现象。而使用cross-entropy时,w、b的梯度就不会出现上述的情况。所以M
阅读全文
摘要:论文地址:https://arxiv.org/abs/1706.03762 正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neu
阅读全文
摘要:1 贝叶斯方法 长久以来,人们对一件事情发生或不发生的概率,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概
阅读全文
摘要:写在前面: 1.Wasserstein GAN(下面简称WGAN)成功地做到了以下爆炸性的几点: 彻底解决GAN训练不稳定的问题,不再需要小心平衡生成器和判别器的训练程度 基本解决了collapse mode的问题,确保了生成样本的多样性 训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进
阅读全文
摘要:⽜顿法是梯度下降法的进一步发展,梯度下降法利用目标函数的一阶偏导数信息、以负梯度方向作为搜索方向,只考虑目标函数在迭代点的局部性质;而牛顿法不仅使用目标函数的一阶偏导数,还进一步利⽤了目标函数的二阶偏导数,这样就考虑了梯度变化的趋势,因⽽而能更全面地确定合适的搜索方向加快收敛,它具有二阶收敛速度。
阅读全文
摘要:1.写在前面 实验表明,RNN 在几乎所有的序列问题上都有良好表现,包括语音/文本识别、机器翻译、手写体识别、序列数据分析(预测)等。 在实际应用中,RNN 在内部设计上存在一个严重的问题:由于网络一次只能处理一个时间步长,后一步必须等前一步处理完才能进行运算。这意味着 RNN 不能像 CNN 那样
阅读全文
摘要:1.首先我们了解一下keras中的Embedding层:from keras.layers.embeddings import Embedding: Embedding参数如下: 输入尺寸:(batch_size,input_length) 输出尺寸:(batch_size,input_length
阅读全文
摘要:1.Tensorflow的模型到底是什么样的? Tensorflow模型主要包含网络的设计(图)和训练好的各参数的值等。所以,Tensorflow模型有两个主要的文件: a) Meta graph: 这是一个协议缓冲区(protocol buffer),它完整地保存了Tensorflow图;即所有的
阅读全文
摘要:1.GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如它的名字所暗示的那样,它们的功能分别是: G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。 D是一个判别网络,判别一张
阅读全文
摘要:一.TensorFlow中变量管理reuse参数的使用 1.TensorFlow用于变量管理的函数主要有两个: (1)tf.get_variable:用于创建或获取变量的值 (2)tf.variable_scope():用于生成上下文管理器,创建命名空间,命名空间可以嵌套 2.函数tf.get_va
阅读全文
摘要:一、学习单步的RNN:RNNCell 如果要学习TensorFlow中的RNN,第一站应该就是去了解“RNNCell”,它是TensorFlow中实现RNN的基本单元,每个RNNCell都有一个call方法,使用方式是:(output, next_state) = call(input, state
阅读全文
摘要:1.训练的话一般一批一批训练,即让batch_size 个样本同时训练; 2.每个样本又包含从该样本往后的连续seq_len个样本(如seq_len=15),seq_len也就是LSTM中cell的个数; 3.每个样本又包含inpute_dim个维度的特征(如input_dim=7) 因此,输入层的
阅读全文
摘要:我们给定一个三个时间的RNN单元,如下: 我们假设最左端的输入 为给定值, 且神经元中没有激活函数(便于分析), 则前向过程如下: 在 时刻, 损失函数为 ,那么如果我们要训练RNN时, 实际上就是是对 求偏导, 并不断调整它们以使得 尽可能达到最小(参见反向传播算法与梯度下降算法)。 那么我们得到
阅读全文
摘要:写在前面:首先需要明确了解的是正负样本比例悬殊不是本质原因,而是表象,不均衡导致模型表现差的本质原因是;1.类别分布的重叠,简单来说就是不同类别的特非常接近,或者更极端的是特征没差的情况下标签却不同;2.噪声问题,很多完全没用的样本被引入,比如因为一些意外的原因标注错误的样本等;3.类别分布的子分布
阅读全文
摘要:对于简单、无状态的自定义操作,你也许可以通过 layers.core.Lambda 层来实现。但是对于那些包含了可训练权重的自定义层,你应该自己实现这种层。 这是一个 Keras2.0 中,Keras 层的骨架(如果你用的是旧的版本,请更新到新版)。你只需要实现三个方法即可: build(input
阅读全文
摘要:1,.为什么要用激活函数? 答:如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。 如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。 2.常用的激活函数以及它们的优缺点
阅读全文
摘要:要了解深度学习中的注意力模型,就不得不先谈Encoder-Decoder框架,因为目前大多数注意力模型附着在Encoder-Decoder框架下,当然,其实注意力模型可以看作一种通用的思想,本身并不依赖于特定框架,这点需要注意。 Encoder-Decoder框架可以看作是一种深度学习领域的研究模式
阅读全文
摘要:假设有这样的房间 如果将房间表示成点,然后用房间之间的连通关系表示成线,如下图所示: 这就是房间对应的图。我们首先将agent(机器人)处于任何一个位置,让他自己走动,直到走到5房间,表示成功。为了能够走出去,我们将每个节点之间设置一定的权重,能够直接到达5的边设置为100,其他不能的设置为0,这样
阅读全文

浙公网安备 33010602011771号