摘要: 模型:https://www.modelscope.cn/models/Qwen/Qwen3-VL-8B-Instruct 1. 多模态理解 图像理解:识别物体、场景、文字(OCR) 多图推理:支持多张图像输入进行综合推理 文档解析:表格、图表、公式识别 细粒度理解:支持区域级别的视觉定位(通过文本 阅读全文
posted @ 2025-12-16 15:16 wangssd 阅读(6) 评论(0) 推荐(0)