随笔分类 - 其他论文总结
摘要:0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:弱监督语义分割 发表时间: CVPR 2022(2022.3.5) 1.针对的问题 目前主流的弱监督语义分割方法通常首先训练分类模型,基于类别激活图(CAM)或其变种生成初始伪标签;然后对伪标签进行细化作为监督信息训练一
阅读全文
摘要:0.前言 相关资料: arxiv github 论文解读(知乎,CSDN) 论文基本信息: 领域:视频自监督表示学习 发表时间:NeurIPS 2022(2022.3.23) 1.针对的问题 视频存在非常多的冗余信息,所以,对视频的处理需要非常大的计算资源,transformer需要非常多的额外训练
阅读全文
摘要:1.图像生成 1.1CLIPasso(semantically-aware object sketching) 将物体的照片变成简笔画的形式,希望即使有最少的线条,也能识别出来物体。 问题定义,在纸上画几条随机初始化的曲线(bezier curve),通过不断的训练,希望这些曲线最后变成简笔画,贝兹
阅读全文
摘要:看了跟李沐学AI系列朱毅老师讲的CLIP改进工作串讲,这里记录一下。 1.分割 分割的任务其实跟分类很像,其实就是把图片上的分类变成像素级别上的分类,但是往往图片上能用的技术都能用到像素级别上来。所以分割的论文很多。 1.1.LSeg(language-driven semantic segment
阅读全文
摘要:看了朱毅老师在B站讲的对比学习论文综述,这里稍微总结一下。视频,笔记 第一阶段:百花齐放 InstDisc(Unsupervised Feature Learning via Non-Parametric Instance Discrimination) 引入个体判别代理任务,正样本就是这个图片本身
阅读全文
摘要:参考简书,github 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:数据增强 发表时间:arxiv 2022(2022.5.1) 1.针对的问题 大型的深度神经网络存在一些不好的行为,比如记忆性和对抗样本敏感问题。当前的神经网络大多都是基于经验风险最小化(ERM原
阅读全文
摘要:最近看了李沐讲论文系列朱毅老师讲的I3D论文精读(视频,笔记),这里记录一下。 1.针对的问题 1.之前的视频数据集都太小,导致大多数流行的动作识别基准都很小,且即使不同模型效果有好有坏也难以区分。 2.在I3D提出之前,视频一直没有明确的前端运行架构,之前捕获时序信息的方法主要有三种。1.向模型中
阅读全文
摘要:0. 前言 相关资料: arxiv github 参考解读(CSDN,知乎,CSDN,博客园) 论文基本信息: 领域:多模态 作者单位:OpenAI 发表时间:2021.2 1. 要解决的问题 之前的计算机视觉模型的数据集都是针对某一类特定任务,迁移效果较差,同时,一些训练时表现好的模型可能在测试中
阅读全文
摘要:传统异常检测的方法对阳性示例的识别,即异常视频中罕见的异常片段,在很大程度上受到优势负示例的影响,特别是当异常事件是细微的异常,与正常事件相比只有微小的差异时。为了解决这一问题,论文中引入了一种新的、理论上健全的方法,称为鲁棒时间特征幅值学习(RTFM),RTFM是基于top-k示例MIL,其最大特
阅读全文
摘要:作者研究了VQA模型是否能够解决GQA挑战中图像中物体之间的空间关系问题。研究结果表明,尽管模型正确地回答了其中一些问题(∼60%),但它们不能真实地解决空间关系问题,这就引出了一个问题:VQA模型是否真的理解了场景的几何形状,或者它们是否基于从数据中学习到的虚假相关性来回答空间问题?基于此,作者设
阅读全文
摘要:利用来自自然语言句子描述的带有动词和名词短语标注的视频,以弱监督的方式检测视频中的人-物交互,并检测视频多帧中的人和物体边界框,这里的弱监督指的是在训练时不需要边界框注释,同时,允许以零次学习的方式检测罕见和未见过的人-物交互。 主要创新点:引入了一种对比性的弱监督训练损失,可以在无边界框标注的情况
阅读全文

浙公网安备 33010602011771号