2 多模态模型 - 随笔分类 - fariver

[PaperReading] Qwen2.5-VL Technical Report

摘要：目录Qwen2.5-VL Technical ReportTL;DRMethodFast and Efficient Vision EncoderMRoPE对齐绝对时间信息Pre-TrainingInterleaved Image-Text DataGrounding Data with Absol 阅读全文

posted @ 2025-10-25 17:16 fariver 阅读(85) 评论(0) 推荐(0)

[PaperReading] DeepSeek-OCR: Contexts Optical Compression

摘要：目录DeepSeek-OCR: Contexts Optical CompressionTL;DRMethodDeepEncoderDeepDecoderDataExperiment总结与思考相关链接 DeepSeek-OCR: Contexts Optical Compression link 时阅读全文

posted @ 2025-10-21 22:49 fariver 阅读(81) 评论(0) 推荐(0)

[PaperReading] Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

摘要：目录Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any ResolutionTL;DRMethodNaive Dynamic ResolutionMultimodal Rotary Position E 阅读全文

posted @ 2025-09-23 18:29 fariver 阅读(85) 评论(0) 推荐(0)

[PaperReading] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

摘要：目录Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and BeyondTL;DRMethodPretrainingMultiTask PreTrainingSuper 阅读全文

posted @ 2025-09-19 21:24 fariver 阅读(68) 评论(0) 推荐(0)

[PaperReading] DINOv3

摘要：目录DINOv3TL;DRMethodDataArchitectureLearning ObjectiveGram Anchoring ObjectiveLeveraging Higher-Resolution Featurespost-hoc strategiesExperiment相关链接 DI 阅读全文

posted @ 2025-09-16 21:36 fariver 阅读(207) 评论(0) 推荐(0)

[PaperReading] LLaVA: Visual Instruction Tuning

摘要：目录LLaVA: Visual Instruction TuningTL;DRDataScienceQA多模态测试集Method多轮对话Experiment效果可视化总结与思考相关链接 LLaVA: Visual Instruction Tuning link 时间：23.12 单位：Univers 阅读全文

posted @ 2025-08-22 22:11 fariver 阅读(43) 评论(0) 推荐(0)

[PaperReading] Flamingo: a Visual Language Model for Few-Shot Learning

摘要：目录Flamingo: a Visual Language Model for Few-Shot LearningTL;DRMethodVisual processing and Perceiver ResamplerGATED XATTN-DENSE layersMixture of Vision 阅读全文

posted @ 2025-07-26 15:41 fariver 阅读(138) 评论(0) 推荐(0)

[PaperReading] R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning

摘要：目录R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement LearningTL;DRMethodVerifiable RewardRLVRExperiment总结与思考相关链接 R1-Omni: Exp 阅读全文

posted @ 2025-07-15 21:28 fariver 阅读(71) 评论(0) 推荐(0)

[PaperReading] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

摘要：目录BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and GenerationTL;DRMethod预训练DataFilt数据ImplementationExperi 阅读全文

posted @ 2025-05-29 21:17 fariver 阅读(76) 评论(0) 推荐(0)

[PaperReading] LXMERT: Learning Cross-Modality Encoder Representations from Transformers

摘要：目录简介TL;DRMethodDatasetExperiment总结与思考简介 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 时间：2019.08（EMNLP 2019）单位：UNC Chape 阅读全文

posted @ 2025-05-11 13:08 fariver 阅读(86) 评论(0) 推荐(0)

[PaperReading] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

摘要：目录简介TL;DRMethod核心创新点学习方式Experiment 简介 link 时间：2019.08.06 单位：Georgia Institute of Technology, Facebook AI Research, Oregon State University 相关领域：计算机视觉与阅读全文

posted @ 2025-05-11 12:40 fariver 阅读(54) 评论(0) 推荐(0)

[基础] CLIP

摘要：Learning Transferable Visual Models From Natural Language Supervision link CLIP 全称 Contrastive Language-Image Pre-training 时间：21.02 机构：OpenAI TL;DR 一种阅读全文

posted @ 2024-03-07 00:34 fariver 阅读(156) 评论(0) 推荐(0)

fariver

随笔分类 - 2 多模态模型

公告