Deep Learning - 随笔分类 - YoungF

翻译《Adam: A Method for Stochastic Optimization》

摘要：Adam: 一个随机优化方法 https://arxiv.org/pdf/1412.6980.pdf 摘要我们基于低阶矩(lower-order moments)的自适应估计提出Adam算法来解决随机目标函数的基于一阶梯度的优化。该方法易于实现，计算效率高，对内存要求低，不随梯度的对角线重缩放发生阅读全文

posted @ 2021-01-20 21:06 YoungF 阅读(1327) 评论(0) 推荐(0)

pytorch.utils.data

摘要：概览 torch.utils.data主要是负责容纳数据集、数据打散、分批等操作。这里面有三个概念：数据集dataset，抽样器sampler，数据加载器dataloader。其中第三个就是最终对外的接口，也是最重要的。它们之间的关系是：首先需要根据源数据创建数据集dataset，然后根据dat 阅读全文

posted @ 2020-11-07 16:15 YoungF 阅读(454) 评论(0) 推荐(0)

pytorch pinned memory

摘要：对CUDA架构而言，主机端的内存可分为两种，一种是pageable memory，即可分页内存；另一种是pinned memory，即页锁定内存。主机默认分配的是pageable memory，也就是说，根据操作系统的指示，主机虚拟内存（内存空间很小，所以内存只放部分数据，其余不重要的放在硬盘中，阅读全文

posted @ 2020-11-06 17:40 YoungF 阅读(788) 评论(0) 推荐(0)

pytorch分布式训练

摘要：第一篇 pytorch分布式训练1 在pytorch 1.6.0，torch.distributed中的功能可以分为三个主要的组件： Distributed Data-Parallel Training（DDP）是一个广泛采用的单程序多数据训练方法。使用DDP，模型会被复制到每个进程，然后每个模型副阅读全文

posted @ 2020-11-06 16:57 YoungF 阅读(2869) 评论(0) 推荐(0)

激活函数综述

摘要：前言激活函数，是神经网络中实现非线性计算的关键，再深的线性神经网络，本质上都和单步线性计算等价。所以，激活函数这个非线性单元是神经网络化腐朽为神奇的关键。激活函数的要求：计算简单，特别是导函数计算简单连续可导（允许在若干个点上不可导）值域合理，这样可以尽量使得不同网络层的输入和输出数据相似阅读全文

posted @ 2020-08-03 00:19 YoungF 阅读(959) 评论(0) 推荐(0)

盘点深度学习中的损失函数

摘要：损失函数度量的是训练的模型与真实模型之间的距离。一般以最小化损失函数为目标，对模型进行不断优化。常见的损失函数在计算过程中都会接受两个参数：模型预测值y_pred和正确答案y_true。由于背后的数学计算过程相同，所以即使是不同深度学习框架这些损失函数的api也是大同小异。本文以keras为例，阅读全文

posted @ 2020-08-02 17:23 YoungF 阅读(2215) 评论(0) 推荐(0)

youngf

focusing on nlp & llm

随笔分类 - Deep Learning

公告