Qwen3-VL 视觉Token 数计算

Qwen3-VL-8B 中图片占用的 Token 数 = 图片分块数 + 固定视觉前缀 / 后缀 Token（通常约 256~1024 个 Token，取决于图片分辨率），具体计算逻辑如下：

一、Qwen3-VL 图片 Token 计算规则

Qwen3-VL 采用「视觉分块编码」方案，和文本 Token 的逐字编码完全不同，核心步骤：

图片预处理（固定规则）
Qwen3-VL 会先将输入图片缩放至最短边 ≥ 448px，最长边 ≤ 2048px（超出则等比例压缩），保持宽高比不变。
分块切割（核心）
将缩放后的图片切割为 14×14 的固定大小补丁（Patch），每个 Patch 对应 1 个视觉 Token：
- 单 Patch 尺寸：14×14 像素（Qwen3-VL 视觉编码器的 Patch Size）；
- 分块数计算公式：
  $分块数图片宽度图片高度$
固定视觉 Token 补充
除了分块对应的 Token，模型会额外添加：
- 1 个 <image> 起始 Token；
- 1 个 </image> 结束 Token；
- 视觉编码器的 cls_token（1 个）和 position_ids（少量）。
  这部分固定占用约 10~20 个 Token。

二、具体计算示例

图片分辨率	缩放后分辨率	分块数（14×14）	总视觉 Token 数（分块 + 固定）
512×512	512×512	37×37=1369	~1390（1369+21）
1024×768	1024×768	74×55=4070	~4090（4070+20）
2048×1024	2048×1024	147×74=10878	~10900（10878+22）

注：

Qwen3-VL-8B 对单张图片的视觉 Token 有上限（约 8192 个），超出会截断分块；
多张图片的 Token 数会累加（如 2 张 512×512 图片 ≈ 1390×2 = 2780 个视觉 Token）。

ASR(Automatic Speech Recognition) 自动语音识别：

Whisper (OpenAI)：目前最主流的开源选择，支持多语言，识别精度高。
FunASR (阿里巴巴达摩院)：专注中文场景，对嘈杂环境鲁棒性强。

TTS(Text-To-Speech) 文本转语音：

Fun-CosyVoice 3.0 是基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统，在内容一致性、说话人相似度和韵律自然性方面超越了其前身 (CosyVoice 2.0)。旨在实现零样本多语言野外语音合成。

posted @ 2025-12-19 15:01 wangssd 阅读(84) 评论(0) 收藏举报

刷新页面返回顶部