摘要:
ViT 概括 论文题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文地址:https://openreview.net/pdf?id=YicbFdNTTy 作者来自 Google 亮点: 一 阅读全文
posted @ 2023-03-19 15:53
bringlu
阅读(441)
评论(0)
推荐(0)
摘要:
某天打了一下 CF,遇到了一道 https://codeforces.com/contest/1806/problem/E 这里需要卡常。 于是在 C++20(64) 下测出来了一些神奇的结果。 结果 都测了两回 | 序号 | 方法 | 时间 1(ms) | 时间 2 (ms) | | | | | 阅读全文
posted @ 2023-03-19 10:23
bringlu
阅读(32)
评论(0)
推荐(0)
摘要:
开场 多模态串讲的上篇是比较传统的多模态任务 多模态最后的模态交互很重要 传统的缺点是都用了预训练的目标检测器,训练和部署都很困难。 ViLT 把预训练的目标检测器换成了一层的 Patch Embedding。 因此容易比不过 c 类的方法 ViLT 训练很慢 认为未来是 c 类的模型结构 Loss 阅读全文
posted @ 2023-03-19 08:36
bringlu
阅读(3413)
评论(0)
推荐(1)

浙公网安备 33010602011771号