摘要: 标题:Unifying Visual Localization and Scene Recognition for People With Visual Impairment IEEE2020 INDEX TERMS: Visual place recognition, global image d 阅读全文
posted @ 2021-09-12 10:17 Nonmy 阅读(205) 评论(0) 推荐(0)
摘要: preface(me) 不堆数据和算力的情况下,大概是要做特定场景的。Traffic scene 相对于与课题贴合,并且有一定数量的文献,从这个角度切入看看有没有说法。 Abstract&Conclusion step: a.object detection and segmentation by 阅读全文
posted @ 2021-09-09 13:51 Nonmy 阅读(257) 评论(0) 推荐(0)
摘要: VinVL: Revisiting Visual Representations in Vision-Language Models 老样子边看边写的 这篇是Oscar班子的续作,从另一个角度优化了VLP,提出了VinVL,提出了Oscar+ 吐槽:不知道是这个组还是MS的文风啊。。 科普: Vis 阅读全文
posted @ 2021-08-25 11:22 Nonmy 阅读(325) 评论(0) 推荐(0)
摘要: Meshed-Memory Transformer for Image Captioning 一句话复盘:我们提出了对self-attention增加记忆槽以引入高层信息的特征向量结构,和基于两重cross-attention作权重的encoder和decoder全连接结构。 还是边看边写的,这文章 阅读全文
posted @ 2021-08-20 17:27 Nonmy 阅读(1259) 评论(0) 推荐(1)
摘要: 问题,弯路,解决 在配置Oscar环境时使用到了apex,要配套cuda10.0安装 ##这个GFW唉 不说了,回头配置下conda的代理,之前用的Qv2rayn还解散了 心累 本地是cuda10.1的环境,conda环境是对应的cuda10.0.在conda环境内安装时遇到了版本不匹配的问题 考虑 阅读全文
posted @ 2021-08-19 11:50 Nonmy 阅读(176) 评论(0) 推荐(0)
摘要: Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 边看边写的。写晕乎了。。 摘要: 当前视觉语言任务常用 大规模预训练模型+多模态表示(这里指image-text pair)。他们结合的比较暴力(图文简单拼接 阅读全文
posted @ 2021-08-17 11:00 Nonmy 阅读(1006) 评论(0) 推荐(0)
摘要: Studying Very Low Resolution Recognition Using Deep Networks 自用 之前让看低分识别,不知道还要不要看了,也好久没看文献了,读几篇准备一下开学。基本上就是文献复述写着玩的,顺道熟悉下博客园。 论文结构 论文复述 论文总结 文章结构 Intr 阅读全文
posted @ 2021-08-04 18:21 Nonmy 阅读(338) 评论(0) 推荐(0)