2025 年 3月 9 日随笔档案 - 258333

2025年3月9日

2025.3.9

摘要：一、多模态编码与特征提取模态编码器每个模态通过独立的预训练编码器（如视觉编码器、文本编码器）进行特征提取。例如：视觉编码器：通常采用ViT（Vision Transformer）、CLIP-ViT或EVA-CLIP等模型，将图像分割为块（Patch）并通过Transformer编码为向量 1 阅读全文

posted @ 2025-03-09 23:54 258333 阅读(111) 评论(0) 推荐(0)

258-333

公告