2025 年 1月 24 日随笔档案 - LittleHenry

2025年1月24日

摘要：动机近期，笔者在研究LLaVA[1]时，注意到LLaVA使用ViT（Vision Transformer）倒数第二层的输出作为视觉特征。消融实验显示，使用倒数第二层的效果略好于最后一层。作者猜测，这可能是因为最后一层特征更关注全局和抽象信息，而倒数第二层更多关注局部信息，从而有利于理解图像细节。阅读全文

posted @ 2025-01-24 01:07 LittleHenry 阅读(2491) 评论(3) 推荐(0)