上一页 1 ··· 43 44 45 46 47 48 49 50 51 ··· 73 下一页
摘要: 论文信息 论文标题:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning论文作者:Jean-Bastien Grill, Florian Strub, Florent Altché....论文来源:2020,NIPS 阅读全文
posted @ 2021-09-12 12:09 多发Paper哈 阅读(2050) 评论(0) 推荐(0) 编辑
摘要: baseline 一个算法被称为 baseline 算法说明这个比目前这个算法还差的已经不能接受了,方法有革命性的创新点可以挖掘,且存在巨大提升空间和超越benchmark的潜力,只是由于发展初期导致性能有限。所以baseline有一个自带的含义就是“性能起点”。在算法优化过程中,一般 versio 阅读全文
posted @ 2021-09-11 17:14 多发Paper哈 阅读(1062) 评论(0) 推荐(2) 编辑
摘要: 消融实验(Ablation experiment) 消融实验类似于 "控制变量法” 。 假设在某目标检测系统中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道这不错的效果是由于A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实验来看一下C在整个系统中所起的作用。 阅读全文
posted @ 2021-09-08 21:04 多发Paper哈 阅读(529) 评论(0) 推荐(0) 编辑
摘要: 论文信息 论文标题:Prototypical Contrastive Learning of Unsupervised Representations论文作者:Junnan Li, Pan Zhou, Caiming Xiong, Steven C.H. Hoi论文来源:2020, ICLR论文地址 阅读全文
posted @ 2021-09-07 09:05 多发Paper哈 阅读(4928) 评论(0) 推荐(0) 编辑
摘要: 文章相关 1 第七章:网络优化与正则化(Part1) 2 第七章:网络优化与正则化(Part2) 7.3 参数初始化 神经网络的参数学习是一个非凸优化问题.当使用梯度下降法来进行优化网络参数时,参数初始值的选取十分关键,关系到网络的优化效率和泛化能力. 梯度下降法需要在开始训练时给每一个参数赋一个初 阅读全文
posted @ 2021-08-30 00:58 多发Paper哈 阅读(154) 评论(0) 推荐(0) 编辑
摘要: AlexNet网络结构 网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000类标签的分布网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入, 阅读全文
posted @ 2021-08-20 16:22 多发Paper哈 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 任何数学技巧都不能弥补信息的缺失. ——科尼利厄斯·兰佐斯(Cornelius Lanczos) 匈牙利数学家、物理学家 文章相关 1 第七章:网络优化与正则化(Part1) 2 第七章:网络优化与正则化(Part2) 虽然神经网络具有非常强的表达能力,但是当应用神经网络模型到机器学习时依然存在一些 阅读全文
posted @ 2021-08-13 10:31 多发Paper哈 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 截断误差:是指计算某个算式时没有精确的计算结果,如积分计算,无穷级数计算等,使用极限的形式表达的,显然我们只能截取有限项进行计算,此时必定会有误差存在,这就是截断误差。 舍入误差:是指由于计算机表示位数的有限,很难表示位数很长的数字,这时计算机就会将其舍成一定的位数,引起舍入误差,每一步的舍入误差是 阅读全文
posted @ 2021-08-02 00:48 多发Paper哈 阅读(1791) 评论(0) 推荐(0) 编辑
摘要: 在本节中,我们假设前馈网络提供了一组定义为 $h = f(x; θ)$ 的隐藏特征。输出层的作用是随后对这些特征进行一些额外的变换来完成整个网络必须完成的任务。 1 线性输出单元 一种简单的输出单元是基于仿射变换的输出单元,仿射变换不具有非线性。这些单元往往被直接称为线性单元。 给定特征 $h$,线 阅读全文
posted @ 2021-08-01 23:19 多发Paper哈 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 收敛速度 这里首先需要给收敛速度做一个诠释。模型的最优解即是模型参数的最优解。通过逐轮迭代,模型参数会被更新到接近其最优解。这一过程中,迭代轮次多,则我们说模型收敛速度慢;反之,迭代轮次少,则我们说模型收敛速度快。 参数更新 深度学习一般的学习方法是反向传播。简单来说,就是通过链式法则,求解全局损失 阅读全文
posted @ 2021-07-31 23:40 多发Paper哈 阅读(155) 评论(0) 推荐(0) 编辑
上一页 1 ··· 43 44 45 46 47 48 49 50 51 ··· 73 下一页
Live2D