随笔分类 - Deep learning
摘要:1.现状 Transformer模型目前被广泛应用,但目前存在以下几个问题: (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析 层参数设置参数量与占用内存 1 layer 0.5Billion 0.5Billion * 4
        阅读全文
            
摘要:1. Overview Adaptive softmax算法在链接1中的论文中提出,该算法目的是为了提高softmax函数的运算效率,适用于一些具有非常大词汇量的神经网络。 在NLP的大部分任务中,都会用到softmax,但是对于词汇量非常大的任务,每次进行完全的softmax会有非常大的计算量,很
        阅读全文
            
摘要:如何在pytorch中使用自定义的激活函数? 如果自定义的激活函数是可导的,那么可以直接写一个python function来定义并调用,因为pytorch的autograd会自动对其求导。 如果自定义的激活函数不是可导的,比如类似于ReLU的分段可导的函数,需要写一个继承torch.autogra
        阅读全文
            
摘要:(转载请注明出处哦~) 参考链接: 1. 误差函数的wiki百科:https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0 2. 正态分布的博客:https://blog.csdn.net/hhaowang/article/
        阅读全文
            
摘要:Google Cloud 原文链接:https://cloud.google.com/blog/products/ai-machine-learning/what-makes-tpus-fine-tuned-for-deep-learning 机器之心翻译链接:https://baijiahao.b
        阅读全文
            
摘要:https://blog.csdn.net/liuxiao214/article/details/81037416 http://www.dataguru.cn/article-13032-1.html 1. BatchNormalization 实现时,对axis = 0维度求均值和方差 -> 对
        阅读全文
            
摘要:Abstract 1 问题 Internal Covariate Shift: 训练神经网络主要就是让各个层学习训练数据的分布。在深度神经网络的训练过程中,之前层(之前的任何一层)的参数的发生变化,那么前一层的输出数据分布也会发生变化,也即当前层的输入数据分布会发生变化。由于网络层的输入数据的分布本
        阅读全文
            
                    
                
浙公网安备 33010602011771号