Fork me on GitHub
摘要: 下面从“论文结构 → 算法核心 → 关键公式/机制 → 和现有 VLM 的关系”四个层次,把 Vary(Vision Vocabulary Augmentation) 的算法部分彻底拆解。 一、论文整体结构速览 Vary 这篇论文的逻辑其实非常“干净”,核心只有一件事: CLIP 的视觉词汇不够 → 阅读全文
posted @ 2026-02-02 10:38 stardsd 阅读(73) 评论(0) 推荐(0)
摘要: 这个点正好卡在 VLM 的“视觉→语言”接口层。 一、先给结论:什么是「CLIP 视觉词汇表」 一句话版: CLIP 的“视觉词汇表”不是显式的 token 表,而是一个“隐式的、由语言监督塑形的视觉概念空间”。 它本质上是: 一组 被语言对齐过的视觉 embedding 原型 每一个视觉 patc 阅读全文
posted @ 2026-02-02 10:16 stardsd 阅读(87) 评论(0) 推荐(0)