随笔分类 - MM
多模态LLM
摘要:目录一、基础补充1. DIT:Diffusion Transformer二、混元DiT技术报告摘要引言方法1. 改进Diffusion Transformers1.1 变分自编码器VAE1.2 Hunyuan-DiT 中的 Diffusion Transformer1.3 文本编码器1.4 位置编码
阅读全文
摘要:目录LAVIS库一、lavis库介绍二、体验示例Image CaptioningVisual question answering (VQA)Unified Feature Extraction Interface加载数据集在任务数据集上评估预训练模型微调 BLIP在COCO-Captioning数
阅读全文
摘要:目录万字长文总结多模态大模型最新进展😊Flamingo1. Visual processing and the Perceiver Resampler2. GATED XATTN-DENSE details3. Multi-visual input support4. 训练细节😃BLIP-21.
阅读全文
摘要:目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0 多模态LLM架构6.1 一阶段预训练6.2 二阶段微调6.2.1 构造图像-指令遵循数据集6.2.2 训练方式6.2.3 质量评估6.3 链接外部工具6.3.1 构造<指令, API>数据6.
阅读全文

浙公网安备 33010602011771号