Qwen3-VL 视觉Token 数计算

Qwen3-VL-8B 中图片占用的 Token 数 = 图片分块数 + 固定视觉前缀 / 后缀 Token(通常约 256~1024 个 Token,取决于图片分辨率),具体计算逻辑如下:

一、Qwen3-VL 图片 Token 计算规则

Qwen3-VL 采用「视觉分块编码」方案,和文本 Token 的逐字编码完全不同,核心步骤:
  1. 图片预处理(固定规则)
    Qwen3-VL 会先将输入图片缩放至最短边 ≥ 448px,最长边 ≤ 2048px(超出则等比例压缩),保持宽高比不变。
  2. 分块切割(核心)
    将缩放后的图片切割为 14×14 的固定大小补丁(Patch),每个 Patch 对应 1 个视觉 Token:
    • 单 Patch 尺寸:14×14 像素(Qwen3-VL 视觉编码器的 Patch Size);
    • 分块数计算公式:
      分块数图片宽度图片高度
  3. 固定视觉 Token 补充
    除了分块对应的 Token,模型会额外添加:
    • 1 个 <image> 起始 Token;
    • 1 个 </image> 结束 Token;
    • 视觉编码器的 cls_token(1 个)和 position_ids(少量)。
      这部分固定占用约 10~20 个 Token。

二、具体计算示例

图片分辨率缩放后分辨率分块数(14×14)总视觉 Token 数(分块 + 固定)
512×512 512×512 37×37=1369 ~1390(1369+21)
1024×768 1024×768 74×55=4070 ~4090(4070+20)
2048×1024 2048×1024 147×74=10878 ~10900(10878+22)
注:
  • Qwen3-VL-8B 对单张图片的视觉 Token 有上限(约 8192 个),超出会截断分块;
  • 多张图片的 Token 数会累加(如 2 张 512×512 图片 ≈ 1390×2 = 2780 个视觉 Token)。

 

ASR(Automatic Speech Recognition) 自动语音识别:

  • Whisper (OpenAI):目前最主流的开源选择,支持多语言,识别精度高。

  • FunASR (阿里巴巴达摩院):专注中文场景,对嘈杂环境鲁棒性强。

TTS(Text-To-Speech) 文本转语音:

  • Fun-CosyVoice 3.0 是基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然性方面超越了其前身 (CosyVoice 2.0)。旨在实现零样本多语言野外语音合成。

image

 

image

 

posted @ 2025-12-19 15:01  wangssd  阅读(84)  评论(0)    收藏  举报