摘要: 1. ASR(Automatic Speech Recognition)自动语音识别 通过语音模型将人类语音转化为文本 常见开源/知名模型/工具: Whisper (OpenAI):目前最主流的开源选择,支持多语言,识别精度高。 FunASR (阿里巴巴达摩院):专注中文场景,对嘈杂环境鲁棒性强。 阅读全文
posted @ 2025-12-19 17:54 wangssd 阅读(10) 评论(0) 推荐(0)
摘要: Qwen3-VL-8B 中图片占用的 Token 数 = 图片分块数 + 固定视觉前缀 / 后缀 Token(通常约 256~1024 个 Token,取决于图片分辨率),具体计算逻辑如下: 一、Qwen3-VL 图片 Token 计算规则 Qwen3-VL 采用「视觉分块编码」方案,和文本 Tok 阅读全文
posted @ 2025-12-19 15:01 wangssd 阅读(84) 评论(0) 推荐(0)