多模态识别

多模态识别的本质 不是“先把字读出来”,
而是:
先把图像分块 → 映射成向量 → 与语言/语义空间对齐 → 判断“这张图在表达什么” 它的能力边界有限 因为它根本不是在“读字”

多模态识别 =
模型不是“先读字”,
而是“一边看图,一边理解这图里在说什么”。
它做的不是 OCR → 文本,
而是 图像 ↔ 语言 ↔ 语义 的联合推理。

img_v3_02tk_7e5bbf78-3a59-4249-b12b-5ba9ee5aea7g

image

posted @ 2026-01-04 18:40  Python喵  阅读(3)  评论(0)    收藏  举报