摘要: SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓 阅读全文
posted @ 2025-03-12 10:06 deephub 阅读(213) 评论(0) 推荐(0)