大型视觉语言模型使用_part1

大型视觉语言模型检测工业异常

AnomalyGPT

一种名为AnomalyGPT的工业异常检测方法,利用视觉大模型LVLM和提示工程零样本实现多种工业缺陷检测。

一个源码文件,四个权重文件。

  • ImageBind 。每个输入模态都会生成一个嵌入向量,这些向量可以在同一嵌入空间中进行比较和计算。
  • LLaMA+Vicuna。输入语言或者嵌入,输出语言。
  • PandaGPT的Delta 权重,改Vicuna
  • AnomalyGPT的Delta 权重 ,改PandaGPT

InternVL

InternVL 2.0 是一个多模态大型语言模型系列,具有各种大小的模型。InternVL2-8B是其中一种, 由 InternViT-300M-448px、一台 MLP 投影器(MLP projector 将 InternViT 提取的视觉特征投影到与语言模型 internlm2_5-7b-chat 相兼容的特征空间)和 internlm2_5-7b-chat 组成。

VIT+mlp+LLM


RTX 3060Ti。内存20G,显存8G。AnomalyGPT-8b爆内存,InternVL-8b爆显存。多模态大模型,没钱玩不了一点儿。

posted @ 2025-04-05 14:25  zhuangzhongxu  阅读(65)  评论(0)    收藏  举报