摘要: BLIP3-o 是一套完全开源(权重,预训练数据集,微调数据集)、统一图像理解与生成的大模型家族,采用自回归 + diffusion 架构,并在多项图文任务中取得最优表现. Q1:为何要用 CLIP 表征图像? A:CLIP 特征是“语义丰富”的高层次表征,适合图文对齐,也方便统一理解与生成。 Q2 阅读全文
posted @ 2025-05-17 23:08 WeihangZhang 阅读(123) 评论(0) 推荐(0)