会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Weihang Zhang
Blogs of Weihang Zhang
首页
新随笔
联系
订阅
管理
2025年5月17日
BLIP3-o: A Family of Fully Open Unified Multimodal Models
摘要: BLIP3-o 是一套完全开源(权重,预训练数据集,微调数据集)、统一图像理解与生成的大模型家族,采用自回归 + diffusion 架构,并在多项图文任务中取得最优表现. Q1:为何要用 CLIP 表征图像? A:CLIP 特征是“语义丰富”的高层次表征,适合图文对齐,也方便统一理解与生成。 Q2
阅读全文
posted @ 2025-05-17 23:08 WeihangZhang
阅读(123)
评论(0)
推荐(0)
公告