Qwen3-VL-8B 中图片占用的 Token 数 = 图片分块数 + 固定视觉前缀 / 后缀 Token(通常约 256~1024 个 Token,取决于图片分辨率),具体计算逻辑如下:
Qwen3-VL 采用「视觉分块编码」方案,和文本 Token 的逐字编码完全不同,核心步骤:
- 图片预处理(固定规则)
Qwen3-VL 会先将输入图片缩放至最短边 ≥ 448px,最长边 ≤ 2048px(超出则等比例压缩),保持宽高比不变。
- 分块切割(核心)
将缩放后的图片切割为 14×14 的固定大小补丁(Patch),每个 Patch 对应 1 个视觉 Token:
- 单 Patch 尺寸:
14×14 像素(Qwen3-VL 视觉编码器的 Patch Size);
- 分块数计算公式:
分块数图片宽度图片高度
- 固定视觉 Token 补充
除了分块对应的 Token,模型会额外添加:
- 1 个
<image> 起始 Token;
- 1 个
</image> 结束 Token;
- 视觉编码器的 cls_token(1 个)和 position_ids(少量)。
这部分固定占用约 10~20 个 Token。
注:
- Qwen3-VL-8B 对单张图片的视觉 Token 有上限(约 8192 个),超出会截断分块;
- 多张图片的 Token 数会累加(如 2 张 512×512 图片 ≈ 1390×2 = 2780 个视觉 Token)。
ASR(Automatic Speech Recognition) 自动语音识别:
TTS(Text-To-Speech) 文本转语音:
- Fun-CosyVoice 3.0 是基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然性方面超越了其前身 (CosyVoice 2.0)。旨在实现零样本多语言野外语音合成。

