多模态识别的本质 不是“先把字读出来”, 而是: 先把图像分块 → 映射成向量 → 与语言/语义空间对齐 → 判断“这张图在表达什么” 它的能力边界有限 因为它根本不是在“读字”
多模态识别 = 模型不是“先读字”, 而是“一边看图,一边理解这图里在说什么”。 它做的不是 OCR → 文本, 而是 图像 ↔ 语言 ↔ 语义 的联合推理。