上一页 1 ··· 95 96 97 98 99 100 101 102 103 ··· 368 下一页
摘要: 促进通用跨域检索中广义知识的模拟 ProS:促进通用跨域检索中广义知识的模拟 通用跨域检索(UCDR)的目标是在广义测试场景中实现稳健的性能,其中数据在训练过程中可能属于严格未知的域和类别。最近,具有快速调整的预训练模型显示出很强的泛化能力,并在各种下游任务中取得了显著成就,如少镜头学习和视频文本检 阅读全文
posted @ 2024-11-09 03:35 吴建明wujianming 阅读(37) 评论(0) 推荐(0)
摘要: ParamISP:使用相机参数学习正向和反向ISP RAW图像很少被共享,主要是因为与相机ISP获得的sRGB图像相比,RAW图像的数据量过大。最近已经证明,学习相机ISP的正向和反向过程,可以对输入的sRGB图像进行具有物理意义的RAW级图像处理。然而,现有的基于学习的ISP方法,无法处理ISP过 阅读全文
posted @ 2024-11-09 03:31 吴建明wujianming 阅读(77) 评论(0) 推荐(0)
摘要: CoSeR桥接图像和语言以实现认知超分辨率 6.10.1 CoSeR桥接图像和语言以实现认知超分辨率概述 现有的超分辨率(SR)模型主要侧重于恢复局部纹理细节,往往忽略了场景中的全局语义信息。这种疏忽可能会导致在恢复过程中遗漏关键的语义细节或引入不准确的纹理。 引入了认知超分辨率(CoSeR)框架, 阅读全文
posted @ 2024-11-03 14:03 吴建明wujianming 阅读(121) 评论(0) 推荐(0)
摘要: 综合、诊断和优化:迈向精细视觉语言理解 6.8.1 综合、诊断和优化:迈向精细视觉语言理解概述 视觉语言模型(VLM)在各种下游任务中表现出了卓越的性能。 然而,理解细粒度的视觉语言概念,如属性和对象间关系,仍然是一个重大的挑战。虽然有几个基准旨在以更精细的粒度评估VLM,但它们的主要重点仍然是语言 阅读全文
posted @ 2024-11-03 13:56 吴建明wujianming 阅读(57) 评论(0) 推荐(0)
摘要: 光谱和偏振视觉光谱偏振现实世界数据集技术分析 两种具有代表性的极化可视化,如图6-13所示。 图6-13 两种具有代表性的极化可视化 在图6-13中,(a)偏振椭圆描绘了投影到与光传播相切的平面上的电场振荡。(b)庞加莱球将光在归一化斯托克斯矢量轴上的偏振态可视化。 图6-14 光谱偏振图像数据集 阅读全文
posted @ 2024-11-02 18:35 吴建明wujianming 阅读(177) 评论(0) 推荐(0)
摘要: 三重时空变化模式的视频协调 5.4.1 三重时空变化模式的视频协调概述 视频协调是一项重要而具有挑战性的任务,旨在通过自动调整前景的外观以与背景协调,从而获得视觉上逼真的合成视频。受手动协调的短期和长期逐步调整过程的启发,提出了一个视频三重变换器框架,用于模拟视频中的三种时空变化模式,即短期空间以及 阅读全文
posted @ 2024-11-01 09:17 吴建明wujianming 阅读(37) 评论(0) 推荐(0)
摘要: 实践中的真知灼见:视频恶劣天气消除的扩散测试时间适应性 现实世界中的视觉任务经常受到意外恶劣天气条件的影响,包括雨、霾、雪和雨滴。在过去的十年里,卷积神经网络和视觉变换器在单天气视频去除方面取得了突出成果。然而,由于缺乏适当的适应,它们中的大多数无法推广到其他天气条件。尽管ViWS-Net被建议使用 阅读全文
posted @ 2024-10-31 05:38 吴建明wujianming 阅读(84) 评论(0) 推荐(0)
摘要: CDFormer:当退化预测包含盲图像超分辨率的扩散模型时 现有的盲图像超分辨率(BSR)方法侧重于估计核或退化信息,但长期以来忽视了基本的内容细节。提出了一种新的BSR方法,即内容感知退化驱动变换器(CDFormer),用于捕获退化和内容表示。然而,低分辨率图像无法提供足够的内容细节,因此引入了一 阅读全文
posted @ 2024-10-30 10:42 吴建明wujianming 阅读(72) 评论(0) 推荐(0)
摘要: 6.11 SAM-6D:分段任意模型满足零样本6D对象姿态估计 6.11.1 SAM-6D:分段任意模型满足零样本6D对象姿态估计概述 零样本6D物体姿态估计涉及在杂乱场景中检测具有6D姿态的新物体,这对模型的可推广性提出了重大挑战。幸运的是,最近的Segment Anything Model(SA 阅读全文
posted @ 2024-10-29 06:39 吴建明wujianming 阅读(142) 评论(0) 推荐(0)
摘要: PromptKD:视觉语言模型的无监督提示提取 快速学习已成为增强视觉语言模型(VLM)的一种有价值的技术,例如用于特定领域下游任务的CLIP。现有的工作主要集中在设计各种学习形式的提示,忽视了提示作为从大型教师模型中学习的有效蒸馏器的潜力。介绍了一种无监督的领域提示蒸馏框架,旨在通过使用未标记的领 阅读全文
posted @ 2024-10-28 08:45 吴建明wujianming 阅读(103) 评论(0) 推荐(0)
上一页 1 ··· 95 96 97 98 99 100 101 102 103 ··· 368 下一页