2025 年 4月 6 日随笔档案 - WeihangZhang

2025年4月6日

摘要： https://arxiv.org/abs/2502.13923 https://github.com/QwenLM/Qwen2.5-VL 背景介绍目前VLMs虽然能胜任各类任务，却难以像LLM那样达到卓越表现。主要发展瓶颈在于：计算复杂度、有限的上下文理解能力、细粒度视觉感知能力差、输出序列长度阅读全文

posted @ 2025-04-06 20:25 WeihangZhang 阅读(689) 评论(0) 推荐(0)

Qwen2.5-Omni：一个全能多模态模型的完整进化

摘要：能看图、听声音、看视频，还能实时说话、写文字，Qwen2.5-Omni 让多模态 AI 更进一步。摘要速览 Qwen2.5-Omni 是 Qwen 团队发布的一款真正“全能型”的多模态大模型，支持文本、图像、音频、视频的输入，并能以文本和语音的形式同步输出，且具备流式处理能力。它不仅在 OmniB 阅读全文

posted @ 2025-04-06 20:19 WeihangZhang 阅读(526) 评论(0) 推荐(0)

Weihang Zhang

Blogs of Weihang Zhang

公告