大视觉模型LVM - 随笔分类 - fariver

[PaperReading] Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models

摘要：目录Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation ModelsTL;DRMethod方法框图说明创新点解释关键CodeCode && Implementation使用的训练集推理速度Experi 阅读全文

posted @ 2025-03-12 15:50 fariver 阅读(104) 评论(0) 推荐(0)

[PaperReading] Scaling Vision Transformers to 22 Billion Parameters

摘要：目录名称TL;DRMethodCode && ImplementationExperiment实现细节Linear Eval on ImageNetZero-shot Eval on ImageNetDense PredictionRelated works中值得深挖的工作名称 Scaling V 阅读全文

posted @ 2025-03-11 21:40 fariver 阅读(172) 评论(0) 推荐(0)

[Paper Reading] Sapiens: Foundation for Human Vision Models

摘要：名称 link 时间：24.08 机构：Meta RealityLabs TL;DR 放出一个human-centric视觉任务的fundation model，该模型在3亿样本(Humans-300M)上进行无监督预训练，实验证明在human-centric视觉任务(2d pose估计/深度估计/ 阅读全文

posted @ 2024-09-04 18:23 fariver 阅读(129) 评论(0) 推荐(0)

fariver

随笔分类 - 大视觉模型LVM

公告