Loading

摘要: ViT 概括 论文题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 作者来自 Google 亮点: 一 阅读全文
posted @ 2023-03-19 15:53 bringlu 阅读(441) 评论(0) 推荐(0)
摘要: 某天打了一下 CF,遇到了一道 https://codeforces.com/contest/1806/problem/E 这里需要卡常。 于是在 C++20(64) 下测出来了一些神奇的结果。 结果 都测了两回 | 序号 | 方法 | 时间 1(ms) | 时间 2 (ms) | | | | | 阅读全文
posted @ 2023-03-19 10:23 bringlu 阅读(32) 评论(0) 推荐(0)
摘要: 开场 多模态串讲的上篇是比较传统的多模态任务 多模态最后的模态交互很重要 传统的缺点是都用了预训练的目标检测器,训练和部署都很困难。 ViLT 把预训练的目标检测器换成了一层的 Patch Embedding。 因此容易比不过 c 类的方法 ViLT 训练很慢 认为未来是 c 类的模型结构 Loss 阅读全文
posted @ 2023-03-19 08:36 bringlu 阅读(3413) 评论(0) 推荐(1)