2024 年 6月 8 日随笔档案 - 穷酸秀才大草包

2024年6月8日

GLaMM : Pixel Grounding Large Multimodal Model

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 大型多模态模型(Large Multimodal Model, LMM)将大语言模型扩展到视觉领域。最初的LMM使用整体图像和文本提示词来生成无定位的文本响应。最近，区域级LMM已被用于生成视觉定位响应。然而，它们仅限于阅读全文

posted @ 2024-06-08 19:20 穷酸秀才大草包阅读(948) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告