摘要:
Motivation & Abs LLaVA-OneVision 是一种整合数据、模型和视觉表征的开源多模态模型,首次在单图像、多图像和视频三大计算机视觉场景中实现性能突破。其设计支持跨模态/场景的强迁移学习,尤其通过图像任务迁移展现了强大的视频理解和跨场景能力。 Method Network Ar 阅读全文
摘要:
王树森—深度强化学习基础 1 基本概念 概率论 随机变量:值取决于随机事件的结果 大写字母\(X\)表示随机变量,小写字母\(x\)表示随机变量的观测值 概率密度函数(Probability Density Function, PDF):随机变量在某个确定的取值点附近的可能性 连续 or 离散 期望 阅读全文
摘要:
Motivation & Abs 增量推理对于MHA是非常慢的(难以并行),因为重复加载大的键/值会增大内存带宽的开销。为此作者提出了multi-query attention(MQA),其中不同注意力头共享相同的键和值,减小了增量解码的内存带宽要求。MQA可以大幅提升解码的速度,同时推理质量仅有略 阅读全文
摘要:
复数几何意义:https://zhuanlan.zhihu.com/p/646598747 https://zhuanlan.zhihu.com/p/359502624 Motivation & Abs 作者提出了旋转位置编码( Rotary Position Embedding, RoPE) 的新 阅读全文
摘要:
Motivation & Abs 之前的MLLM通常使用预定义的固定分辨率,Qwen2-VL引入了朴素动态分辨率,使模型能够生成更高效、更准确的视觉表示,与人类感知过程紧密结合。同时,模型还使用了多模态旋转位置编码(M-RoPE),促进了不同模态信息的有效融合。同时,作者使用了统一的范式处理图像和视 阅读全文
摘要:
Motivaton & Abs 作者提出了一个简单的成对sigmoid损失以用于图像文本预训练,其仅作用于图像-文本对,不需要获取global view并进行归一化。sigmoid 损失同时允许进一步扩大 batch size,同时在较小的 batch size 上也表现得更好。最后,作者发现将ba 阅读全文
摘要:
Motivation & Abs Qwen-VL系列模型,通过设计(1)视觉感受器;(2)输入输出接口;(3)3阶段训练流水线;(4)多语言多模态高质量语料库从而赋予模型视觉感受的能力。除了传统的image description以及VQA任务外,作者还通过对齐image-caption-box从而 阅读全文
摘要:
Motivation & Method 关注的任务为zero-shot referring image segmentation,模型无法获得pixel-level的分割标注。之前的方法通常使用预训练的多模态模型如CLIP,然而CLIP使用图像文本对进行训练,难以做到image local patc 阅读全文
摘要:
Motivation & Abs 近年来,大语言模型在视觉方面取得了极大的进步,但其如何完成定位任务(如word grounding等)仍然不清楚。本文旨在设计一种模型能够将一系列点/边界框作为输入或者输出。当模型接受定位信息作为输入时,可以进行以定位为condition的captioning。当生 阅读全文
摘要:
Motivation & Abs 文章关注的任务为用VLM(如CLIP)做开放词汇分割,motivation主要来自于作者的一个观察:分割图中的噪声主要来自于残差连接,这会导致在文本-图像预训练更加强调全局特征,从而牺牲了局部判别能力,从而导致了分割结果中的噪声。为此作者提出了ClearCLIP,对 阅读全文