2025 年 10月 12 日随笔档案 - 不负如来不负卿x

2025年10月12日

摘要： 0 概述 **VLM可以做的任务类型** 视觉定位/物体检测（Visual grounding）图像和视频总结（image caption）视觉问答（visual question answering）图像-文本对比学习生成式任务对齐式任务文本解析和手写文档图像分类语义分割图像文本检阅读全文

posted @ 2025-10-12 18:57 不负如来不负卿x 阅读(40) 评论(0) 推荐(0)

alexa2077

公告