摘要: ViT:如果在足够多的数据上做预训练,直接用NLP中搬来的Transformer也能把视觉问题解决的很好,这打破了视觉和NLP之间模型上的壁垒,所以就开启了多模态领域的快速发展。 在开始读原文之前,这里展示了一个ViT有趣的特性,即在以下四种情况下CNN甚至人眼都难以分辨图片中是一只鸟,而ViT效果 阅读全文
posted @ 2023-04-10 22:36 诸葛村夫CC 阅读(701) 评论(1) 推荐(0)
摘要: 机器学习模型有两大类,第一种是分辨模型(这里的分辨我理解为让模型分辨/理解/识别数据),即判断数据的类别或输出一个预测。第二类是生成模型,即生成数据本身 李沐认为GAN的摘要非常简洁,是可以直接写进教科书的写法。如果你提出的是一个全新的东西,并且你认为它是能写进教科书的话,那你整篇文章关键在于讲清楚 阅读全文
posted @ 2023-04-10 16:56 诸葛村夫CC 阅读(66) 评论(0) 推荐(0)