随笔分类 -  MM

多模态LLM
摘要:目录一、基础补充1. DIT:Diffusion Transformer二、混元DiT技术报告摘要引言方法1. 改进Diffusion Transformers1.1 变分自编码器VAE1.2 Hunyuan-DiT 中的 Diffusion Transformer1.3 文本编码器1.4 位置编码 阅读全文
posted @ 2024-08-17 09:59 幻影星全能的木豆 阅读(949) 评论(0) 推荐(0)
摘要:目录LAVIS库一、lavis库介绍二、体验示例Image CaptioningVisual question answering (VQA)Unified Feature Extraction Interface加载数据集在任务数据集上评估预训练模型微调 BLIP在COCO-Captioning数 阅读全文
posted @ 2024-07-21 21:08 幻影星全能的木豆 阅读(1059) 评论(0) 推荐(0)
摘要:目录万字长文总结多模态大模型最新进展😊Flamingo1. Visual processing and the Perceiver Resampler2. GATED XATTN-DENSE details3. Multi-visual input support4. 训练细节😃BLIP-21. 阅读全文
posted @ 2024-07-19 00:28 幻影星全能的木豆 阅读(802) 评论(0) 推荐(0)
摘要:目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0 多模态LLM架构6.1 一阶段预训练6.2 二阶段微调6.2.1 构造图像-指令遵循数据集6.2.2 训练方式6.2.3 质量评估6.3 链接外部工具6.3.1 构造<指令, API>数据6. 阅读全文
posted @ 2024-07-18 23:04 幻影星全能的木豆 阅读(2349) 评论(0) 推荐(1)