随笔分类 -  神经网络与深度学习

【深度学习】RNN论文合集
摘要:【一】How to Construct Deep Recurrent Neural Networks 很好的读书笔记:https://www.cnblogs.com/lucifer1997/p/13615116.html 这篇是讲怎么把RNN扩展成deep的 【二】convolutional lon 阅读全文

posted @ 2022-01-13 15:07 yesuuu 阅读(1210) 评论(0) 推荐(0)

【torch】dataset, dataloader, sampler
摘要:【dataset】 主要工作:处理idx到sample的映射,每个sample有x, y或者其他的 分两种:map式,iterable式 map dataset的实现: 1、数据长度:__len__ 2、取数据:__getitem__ iterable dataset要继承data.Iterable 阅读全文

posted @ 2022-01-13 15:05 yesuuu 阅读(615) 评论(0) 推荐(0)

【深度学习】沐神领读论文:ResNet
摘要:【摘要】 提出问题:深的神经网络难训练。使用残差学习使容易。非常容易训练,很好的精度,增加层。Imagenet 152层的深度,比vgg更低的复杂度 CIFAR-10小数据,居然能训练100-1000层! COCO的目标检测数据集,用之前学习的残差网络,提升了28%。 【图】 图1:56层不如20层 阅读全文

posted @ 2022-01-08 22:09 yesuuu 阅读(101) 评论(0) 推荐(0)

【深度学习】沐神论文领读:Alexnet
摘要:倒数第二层: 现在的倒数第二层是4096个神经元,算是一个很优秀的特征提取。 dropout: 现在CNN通常不会用到那么大的全连接 dropout也就不那么重要,gpu/内存不那么吃紧 但dropout在全连接/RNN/Attention很有用, 初始化: 均值0,方差0.01的高斯随机变量。Be 阅读全文

posted @ 2022-01-08 21:31 yesuuu 阅读(45) 评论(0) 推荐(0)

【深度学习】torch中LSTM的参数详细情况
摘要:LSTM 其中: ft为遗忘门,it为输入门,gt为输入,ot为输出门 weight_ih_l0 = wii wif wig wio 是x的变换 weight_hh_l0 = whi whf whg who 是h的变换 假设为一层的lstm, 将m维向量映射为n维 那么ct, ht均为n维, Wii 阅读全文

posted @ 2020-10-30 13:13 yesuuu 阅读(1767) 评论(0) 推荐(0)

【深度学习】使用Ray
摘要:启动 ray.init(): 可以自动检测机器的cpu / gpu,也可以传入参数覆盖 local_mode=True可以关闭并行的计划 ray.is_initialized() ray.shutdown() 远程func: @ray.remote, id = func.remote(**kwarg 阅读全文

posted @ 2020-06-02 17:14 yesuuu 阅读(853) 评论(0) 推荐(0)

【深度学习】超参调节方式:Bayesian Opt
摘要:参考文章:https://zhuanlan.zhihu.com/p/76269142 参考文章:https://zhuanlan.zhihu.com/p/86386926 贝叶斯的优势: 1、适用于一次参数计算很慢的情况 2、优化的function没有导数信息 贝叶斯的劣势: 1、参数太多(high 阅读全文

posted @ 2020-05-28 10:55 yesuuu 阅读(562) 评论(0) 推荐(0)

【深度学习】CNN论文TCN
摘要:RNN的主要问题: 1 太长的影响捕捉不到 2 训练太慢 TCN的两个原则: 1 网络产生与输入相同长度的输出 隐层和输入层长度相同 (padding 0), 2 不能使用历史数据 产生的问题: 需要很深的网络才能表达 三个关键的技术: 1 因果卷积(单边卷积) 2 扩张卷积 3 resNet 跳连 阅读全文

posted @ 2020-05-09 14:51 yesuuu 阅读(624) 评论(0) 推荐(0)

【深度学习】CNN论文:AlexNet
摘要:有个写的很好的文章:https://zhuanlan.zhihu.com/p/80087776 【一】 网络结构很重要,一层都不能少。网络深很重要 如果算力提升,效果很显然可以继续提升。 防止过拟合很重要 【二】数据集 train 120w valid 5w test 15w, 报告两个错误率 to 阅读全文

posted @ 2020-04-24 11:22 yesuuu 阅读(222) 评论(0) 推荐(0)

【深度学习】CNN的发展历史、各项重要技术
摘要:发展历程: leNet - AlexNet - VGG / GoogleNet(Inception) - resNet - denseNet - 剪枝 NiN / MSRANet / highwayNet / 【leNet】1998 经典的5层网络:( 卷积 + tanh + 池化) * 2 + 全 阅读全文

posted @ 2020-04-24 11:18 yesuuu 阅读(1047) 评论(0) 推荐(0)

【pyTorch】入门
摘要:【自动求导的使用】 对于要求导的变量x,设置require_grad == True 对于最终的函数y, 要运行反向传播 y.backward() 最终可以查看 dy / dx = x.grad 中间量的求导怎么算?? 【高维求导】 假设 f 为高维函数 n to m 维,其求导可以认为是一个jac 阅读全文

posted @ 2020-04-21 15:01 yesuuu 阅读(159) 评论(0) 推荐(0)

【linux】【深度学习】从零开始在linux机器上面搭建pyTorch环境
摘要:【零】 查看linux系统版本 cat /etc/issue : ubuntu 查看cuda版本: cat /usr/local/cuda/version.txt 需要找到安装cuda的路径 nvcc -V 需要安装 nvidia-cuda-toolkit 包。。。 nvidia-smi 【一】安装 阅读全文

posted @ 2020-04-20 16:58 yesuuu 阅读(1327) 评论(0) 推荐(0)

【dlbook】实践方法论
摘要:【性能度量】 使用什么误差度量? 目标性能大致为多少? 【默认的基准模型】 首先尝试分段线性单元,ReLU以及扩展。 SGD一般是合理的选择,选加入动量的版本,衰减方法不一。 批标准化在优化出现问题时应该直接使用。 一开始就应该有一些温和的正则化 提前终止一般使用 Dropout比较容易实现,而且兼 阅读全文

posted @ 2018-02-01 17:56 yesuuu 阅读(181) 评论(0) 推荐(0)

【dlbook】优化
摘要:【神经网络优化的挑战】 一、病态: 虽然学习率很小,而且梯度大,但是由于Hessian阵的病态,二次项比一次项还要大,梯度下降事实上并不一定能下降,反而有可能上升。因此需要将学习率调低。 表现:梯度很强,但是学习很缓慢,因为曲率太强 二、局部最小值: 由于权重空间对称性,神经网络有很多局部极小值。 阅读全文

posted @ 2018-02-01 13:45 yesuuu 阅读(161) 评论(0) 推荐(0)

【dlbook】正则化
摘要:对学习算法的修改——旨在减少泛化误差而不是训练误差 显著减少方差而不过度增加偏差。 【参数范数惩罚】 通常只对权重做惩罚而不对偏置做惩罚,原因是拟合偏置比拟合权重容易很多。 不同层使用不同惩罚的代价很大,会在所有层使用相同的权重衰减。 L2正则化的效果: 在Hessian阵特征值较大的方向,正则化的 阅读全文

posted @ 2018-01-31 14:05 yesuuu 阅读(143) 评论(0) 推荐(0)

【dlbook】深度网络
摘要:前向网络:无反馈 feedback 连接 【输出单元】 线性 -- 高斯分布 、 sigmoid单元 -- bernoulli输出、 softmax单元 -- multinoulli 【隐藏单元】 整流线型单元: relu,不可微,但是在梯度下降中的表现依然很好。原因是只要接近局部最小值即可,不需要 阅读全文

posted @ 2018-01-30 22:51 yesuuu 阅读(224) 评论(0) 推荐(0)

【dlbook】机器学习基础
摘要:【机器学习基础】 模型的 vc dimension 如何衡量? 如何根据网络结构衡量模型容量?有效容量和模型容量之间的关系? 统计学习理论中边界不用于深度学习之中,原因? 1、边界通常比较松, 2、深度网络的容量估计非常困难,主要原因是受优化算法的能力限制! 深度学习中正则化:偏向于范数较小的权重! 阅读全文

posted @ 2018-01-30 21:52 yesuuu 阅读(156) 评论(0) 推荐(0)

【dlbook】数学基础
摘要:【代数】 Moore-Penrose 伪逆 【概率信息论】 自信息,香农熵,衡量两个分布的差异:kl散度 \ 交叉熵 【数值】 溢出: softmax计算的时候要关注上溢和下溢,如果所有X都相等且为很小的负数的话,有分母为零的风险。 病态条件: 矩阵求逆对输入的误差可能很敏感,这样由于输入的不精确, 阅读全文

posted @ 2018-01-25 11:10 yesuuu 阅读(226) 评论(0) 推荐(0)

【tensorflow:Google】四、深层神经网络
摘要:一、深度学习与深层神经网络 1、线性模型局限性 线性模型无论多少层,表达能力是一致的。可以通过激活函数实现非线性。 2、多层网络可以解决异或运算 二、损失函数定义 1、经典损失函数: 分类问题: 二分类:取0.5作为阈值 多分类:设置n个输出节点,每个对应该类的可能性。神经网络输出向量 —>概率分布 阅读全文

posted @ 2017-08-31 22:25 yesuuu 阅读(147) 评论(0) 推荐(0)

【tensorflow:Google】三、tensorflow入门
摘要:【一】计算图模型 节点是计算,边是数据流, a = tf.constant( [1., 2.] )定义的是节点,节点有属性 a.graph 取得默认计算图 g1 = tf.get_default_graph() 初始化计算图 g1 = tf.Graph() 设置default图 g1.as_defa 阅读全文

posted @ 2017-08-29 22:50 yesuuu 阅读(218) 评论(0) 推荐(0)

导航