陈用饼 - 博客园

2025年1月3日

摘要： GLIP-L 和 GLIP-T(C) 在 COCO 数据集上的 Zero-Shot 预测结果 GPU为Tesla P40 24G。指标 GLIP-L GLIP-T(C) AP@[IoU=0.50:0.95] (所有区域的平均精度) 51.24%/61.7% 46.74%/55.1% AP@[IoU 阅读全文

posted @ 2025-01-03 13:20 陈用饼阅读(563) 评论(0) 推荐(0)

2024年12月1日

2024.11多模态学习月报

摘要： 2024年11月学习月报 SegEarth-OV SegEarth-OV是面向遥感图像的开放词汇语义分割模型。SegEarth-OV的模型架构为CLIP，并且采用SimFeatUp作为上采样器。由于FeatUp中的上采样器和下采样器都是可学习的，所以难以保证HR特征完整。于是在SimFeatUp中引阅读全文

posted @ 2024-12-01 12:57 陈用饼阅读(161) 评论(0) 推荐(0)

2024年10月29日

GeoChat论文阅读

摘要： GeoChat 任务图像级对话任务在此任务中，GeoChat 处理图像和用户文本查询，利用图像的全局上下文执行对话的任务。区域级对话任务在图像输入中向 GeoChat 提供空间框位置 ( b )，指导模型关注图像中的特定区域，执行区域级的对话任务。具体化对话任务通过使用特殊的标记，引导G 阅读全文

posted @ 2024-10-29 22:25 陈用饼阅读(235) 评论(4) 推荐(0)

2024年10月9日

2024年9月学习月报

摘要：

一、学习目标学习 VLM 的基本原理和架构，理解视觉和语言信息的融合方式，掌握 VLM 的训练方式与评估方法。学习 VLM 在遥感领域的应用（RemoteCLIP、ChangeCLIP），并尝试本地复现。二、学习内容文献 An Introduction to Vision-Language 阅读全文

posted @ 2024-10-09 02:48 陈用饼阅读(273) 评论(0) 推荐(0)

cyb66666

公告