随笔分类 - Deep Learning
摘要:Adam: 一个随机优化方法 https://arxiv.org/pdf/1412.6980.pdf 摘要 我们基于低阶矩(lower-order moments)的自适应估计提出Adam算法来解决随机目标函数的基于一阶梯度的优化。该方法易于实现,计算效率高,对内存要求低,不随梯度的对角线重缩放发生
阅读全文
摘要:概览 torch.utils.data主要是负责容纳数据集、数据打散、分批等操作。 这里面有三个概念:数据集dataset,抽样器sampler,数据加载器dataloader。其中第三个就是最终对外的接口,也是最重要的。 它们之间的关系是:首先需要根据源数据创建数据集dataset,然后根据dat
阅读全文
摘要:对CUDA架构而言,主机端的内存可分为两种,一种是pageable memory,即可分页内存;另一种是pinned memory,即页锁定内存。 主机默认分配的是pageable memory,也就是说,根据操作系统的指示,主机虚拟内存(内存空间很小,所以内存只放部分数据,其余不重要的放在硬盘中,
阅读全文
摘要:第一篇 pytorch分布式训练1 在pytorch 1.6.0,torch.distributed中的功能可以分为三个主要的组件: Distributed Data-Parallel Training(DDP)是一个广泛采用的单程序多数据训练方法。使用DDP,模型会被复制到每个进程,然后每个模型副
阅读全文
摘要:前言 激活函数,是神经网络中实现非线性计算的关键,再深的线性神经网络,本质上都和单步线性计算等价。所以,激活函数这个非线性单元是神经网络化腐朽为神奇的关键。 激活函数的要求: 计算简单,特别是导函数计算简单 连续可导(允许在若干个点上不可导) 值域合理,这样可以尽量使得不同网络层的输入和输出数据相似
阅读全文
摘要:损失函数度量的是训练的模型与真实模型之间的距离。一般以最小化损失函数为目标,对模型进行不断优化。 常见的损失函数在计算过程中都会接受两个参数:模型预测值y_pred和正确答案y_true。 由于背后的数学计算过程相同,所以即使是不同深度学习框架这些损失函数的api也是大同小异。本文以keras为例,
阅读全文

浙公网安备 33010602011771号