摘要: GLIP-L 和 GLIP-T(C) 在 COCO 数据集上的 Zero-Shot 预测结果 GPU为Tesla P40 24G。 指标 GLIP-L GLIP-T(C) AP@[IoU=0.50:0.95] (所有区域的平均精度) 51.24%/61.7% 46.74%/55.1% AP@[IoU 阅读全文
posted @ 2025-01-03 13:20 陈用饼 阅读(474) 评论(0) 推荐(0)
摘要: 2024年11月学习月报 SegEarth-OV SegEarth-OV是面向遥感图像的开放词汇语义分割模型。SegEarth-OV的模型架构为CLIP,并且采用SimFeatUp作为上采样器。由于FeatUp中的上采样器和下采样器都是可学习的,所以难以保证HR特征完整。于是在SimFeatUp中引 阅读全文
posted @ 2024-12-01 12:57 陈用饼 阅读(131) 评论(0) 推荐(0)
摘要: GeoChat 任务 图像级对话任务 在此任务中,GeoChat 处理图像和用户文本查询,利用图像的全局上下文执行对话的任务。 区域级对话任务 在图像输入中向 GeoChat 提供空间框位置 ( b ),指导模型关注图像中的特定区域,执行区域级的对话任务。 具体化对话任务 通过使用特殊的标记,引导G 阅读全文
posted @ 2024-10-29 22:25 陈用饼 阅读(212) 评论(4) 推荐(0)
摘要: 2024年9月学习月报 一、学习目标 学习 VLM 的基本原理和架构,理解视觉和语言信息的融合方式,掌握 VLM 的训练方式与评估方法。 学习 VLM 在遥感领域的应用(RemoteCLIP、ChangeCLIP),并尝试本地复现。 二、学习内容 文献 An Introduction to Vision-Language 阅读全文
posted @ 2024-10-09 02:48 陈用饼 阅读(236) 评论(0) 推荐(0)