大型视觉语言模型使用_part1
大型视觉语言模型检测工业异常

AnomalyGPT
一种名为AnomalyGPT的工业异常检测方法,利用视觉大模型LVLM和提示工程零样本实现多种工业缺陷检测。
一个源码文件,四个权重文件。
- ImageBind 。每个输入模态都会生成一个嵌入向量,这些向量可以在同一嵌入空间中进行比较和计算。
- LLaMA+Vicuna。输入语言或者嵌入,输出语言。
- PandaGPT的Delta 权重,改Vicuna
- AnomalyGPT的Delta 权重 ,改PandaGPT

InternVL
InternVL 2.0 是一个多模态大型语言模型系列,具有各种大小的模型。InternVL2-8B是其中一种, 由 InternViT-300M-448px、一台 MLP 投影器(MLP projector 将 InternViT 提取的视觉特征投影到与语言模型 internlm2_5-7b-chat 相兼容的特征空间)和 internlm2_5-7b-chat 组成。
VIT+mlp+LLM

RTX 3060Ti。内存20G,显存8G。AnomalyGPT-8b爆内存,InternVL-8b爆显存。多模态大模型,没钱玩不了一点儿。

浙公网安备 33010602011771号