随笔分类 - LLM
摘要:多模态识别的本质 不是“先把字读出来”, 而是: 先把图像分块 → 映射成向量 → 与语言/语义空间对齐 → 判断“这张图在表达什么” 它的能力边界有限 因为它根本不是在“读字” 多模态识别 = 模型不是“先读字”, 而是“一边看图,一边理解这图里在说什么”。 它做的不是 OCR → 文本, 而是
阅读全文
摘要:通过使用结构化输出,你可以将提示词转化为干净、易于维护的代码,同时利用 Pydantic 强大的验证功能。这种方法为构建 RAG 应用、错误管理以及实现 LLM 优雅重试机制提供了坚实基础。 from mlx_vlm import load, apply_chat_template, generat
阅读全文

浙公网安备 33010602011771号