会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
2025年3月12日
SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器
摘要: SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓
阅读全文
posted @ 2025-03-12 10:06 deephub
阅读(213)
评论(0)
推荐(0)
公告