摘要: BLIP3-o 是一套完全开源(权重,预训练数据集,微调数据集)、统一图像理解与生成的大模型家族,采用自回归 + diffusion 架构,并在多项图文任务中取得最优表现. Q1:为何要用 CLIP 表征图像? A:CLIP 特征是“语义丰富”的高层次表征,适合图文对齐,也方便统一理解与生成。 Q2 阅读全文
posted @ 2025-05-17 23:08 WeihangZhang 阅读(122) 评论(0) 推荐(0)
摘要: UniME 提出了一种利用多模态大语言模型(MLLM)学习通用嵌入表示的新框架,在多种跨模态任务中实现了显著性能提升 Q1:为什么传统 CLIP 表示不适合复杂跨模态任务? A:因为 CLIP 的图文编码是分离的,它不能理解图像和语言之间复杂的上下文关系,尤其在长文本和多元素组合时容易丢失语义。 Q 阅读全文
posted @ 2025-05-11 20:40 WeihangZhang 阅读(106) 评论(0) 推荐(0)
摘要: InternVL3 是一款原生多模态预训练的大模型系列,在图文理解、工具使用、视频分析等方面实现全面升级,模型规模覆盖 1B–78B,全线在开源模型中表现优异。 概述 InternVL3 是 OpenGVLab 团队推出的第三代多模态大模型,继承并全面超越 InternVL2.5。 它采用 原生多模 阅读全文
posted @ 2025-04-15 10:06 WeihangZhang 阅读(308) 评论(0) 推荐(0)
摘要: VisualPRM 是首个多模态过程奖励模型(PRM),通过评估“推理过程的每一步”显著提升多模态大模型(MLLMs)的推理能力,提出了专属训练集 VisualPRM400K 与评估基准 VisualProcessBench。** 背景 多模态大模型在感知与识别方面已表现出色,但在复杂推理能力上仍落 阅读全文
posted @ 2025-04-12 17:21 WeihangZhang 阅读(92) 评论(0) 推荐(0)
摘要: Kimi-VL 仅激活 2.8B 参数就能实现多项 SOTA 表现 Kimi-VL-Thinking 是其“深度思考”版本,专注于复杂长链推理,适用于科研、教学、AI agent 等场景。 背景 随着 GPT-4o 等多模态模型的发布,AI 正在向“视觉 + 语言”深度融合发展。然而开源社区在多模态 阅读全文
posted @ 2025-04-10 10:55 WeihangZhang 阅读(147) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2502.13923 https://github.com/QwenLM/Qwen2.5-VL 背景介绍 目前VLMs虽然能胜任各类任务,却难以像LLM那样达到卓越表现。主要发展瓶颈在于:计算复杂度、有限的上下文理解能力、细粒度视觉感知能力差、输出序列长度 阅读全文
posted @ 2025-04-06 20:25 WeihangZhang 阅读(578) 评论(0) 推荐(0)
摘要: 能看图、听声音、看视频,还能实时说话、写文字,Qwen2.5-Omni 让多模态 AI 更进一步。 摘要速览 Qwen2.5-Omni 是 Qwen 团队发布的一款真正“全能型”的多模态大模型,支持文本、图像、音频、视频的输入,并能以文本和语音的形式同步输出,且具备流式处理能力。它不仅在 OmniB 阅读全文
posted @ 2025-04-06 20:19 WeihangZhang 阅读(447) 评论(0) 推荐(0)
摘要: Visual-RFT: RFT in VLM 主要内容 我们引入了视觉强化微调( Visual Reinforcement Fine- Tuning,Visual-RFT ),在有限数据微调有效的视觉感知任务上扩展了可验证奖励的强化学习。 我们为不同的视觉任务设计了不同的可验证奖励,以可忽略的成本实 阅读全文
posted @ 2025-03-16 21:01 WeihangZhang 阅读(431) 评论(0) 推荐(0)
摘要: AutoGLM: 针对Web和手机,基于ChatGLM,具体细节并不清楚。 主要内容 提出AUTOGLM,集成了一套全面的技术和基础设施,以创建适合用户交付的可部署代理系统。首先,为GUI控制设计合适的"intermediate interface"是至关重要的,可以实现规划和定位的分离。其次,开发 阅读全文
posted @ 2025-03-09 17:36 WeihangZhang 阅读(151) 评论(0) 推荐(0)
摘要: SeeClick: screen shot + VLM 实现agent, 提出了ScreenSpot数据集。 主要内容 提出SeeClick方法,仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Clic 阅读全文
posted @ 2025-03-08 14:42 WeihangZhang 阅读(139) 评论(0) 推荐(0)