08 2021 档案
摘要:VinVL: Revisiting Visual Representations in Vision-Language Models 老样子边看边写的 这篇是Oscar班子的续作,从另一个角度优化了VLP,提出了VinVL,提出了Oscar+ 吐槽:不知道是这个组还是MS的文风啊。。 科普: Vis
阅读全文
摘要:Meshed-Memory Transformer for Image Captioning 一句话复盘:我们提出了对self-attention增加记忆槽以引入高层信息的特征向量结构,和基于两重cross-attention作权重的encoder和decoder全连接结构。 还是边看边写的,这文章
阅读全文
摘要:问题,弯路,解决 在配置Oscar环境时使用到了apex,要配套cuda10.0安装 ##这个GFW唉 不说了,回头配置下conda的代理,之前用的Q*****n还解散了 心累 本地是cuda10.1的环境,conda环境是对应的cuda10.0.在conda环境内安装时遇到了版本不匹配的问题 考虑
阅读全文
摘要:Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 边看边写的。写晕乎了。。 摘要: 当前视觉语言任务常用 大规模预训练模型+多模态表示(这里指image-text pair)。他们结合的比较暴力(图文简单拼接
阅读全文
posted @ 2021-08-17 11:00
Nonmy
摘要:写了,顺手记录一下 # ref # https://zhzhx.blog.csdn.net/article/details/115859955 #https://blog.csdn.net/a19990412/article/details/81407701 import cv2 import ma
阅读全文
摘要:Studying Very Low Resolution Recognition Using Deep Networks 自用 之前让看低分识别,不知道还要不要看了,也好久没看文献了,读几篇准备一下开学。基本上就是文献复述写着玩的,顺道熟悉下博客园。 论文结构 论文复述 论文总结 文章结构 Intr
阅读全文

浙公网安备 33010602011771号