2025 年 12月 19 日随笔档案 - wangssd

2025年12月19日

摘要： 1. ASR（Automatic Speech Recognition）自动语音识别通过语音模型将人类语音转化为文本常见开源/知名模型/工具： Whisper (OpenAI)：目前最主流的开源选择，支持多语言，识别精度高。 FunASR (阿里巴巴达摩院)：专注中文场景，对嘈杂环境鲁棒性强。阅读全文

posted @ 2025-12-19 17:54 wangssd 阅读(10) 评论(0) 推荐(0)

Qwen3-VL 视觉Token 数计算

摘要： Qwen3-VL-8B 中图片占用的 Token 数 = 图片分块数 + 固定视觉前缀 / 后缀 Token（通常约 256~1024 个 Token，取决于图片分辨率），具体计算逻辑如下：一、Qwen3-VL 图片 Token 计算规则 Qwen3-VL 采用「视觉分块编码」方案，和文本 Tok 阅读全文

posted @ 2025-12-19 15:01 wangssd 阅读(84) 评论(0) 推荐(0)

wangssd

公告