MM - 随笔分类 - 幻影星全能的木豆

DiT基础补充 & 混元DiT

摘要：目录一、基础补充1. DIT：Diffusion Transformer二、混元DiT技术报告摘要引言方法1. 改进Diffusion Transformers1.1 变分自编码器VAE1.2 Hunyuan-DiT 中的 Diffusion Transformer1.3 文本编码器1.4 位置编码阅读全文

posted @ 2024-08-17 09:59 幻影星全能的木豆阅读(989) 评论(0) 推荐(0)

LAVIS库学习及MiniGPT4-Qwen中的实现，代码部分待精简总结

摘要：目录LAVIS库一、lavis库介绍二、体验示例Image CaptioningVisual question answering (VQA)Unified Feature Extraction Interface加载数据集在任务数据集上评估预训练模型微调 BLIP在COCO-Captioning数阅读全文

posted @ 2024-07-21 21:08 幻影星全能的木豆阅读(1097) 评论(0) 推荐(0)

万字长文多模态LLM进展

摘要：目录万字长文总结多模态大模型最新进展😊Flamingo1. Visual processing and the Perceiver Resampler2. GATED XATTN-DENSE details3. Multi-visual input support4. 训练细节😃BLIP-21. 阅读全文

posted @ 2024-07-19 00:28 幻影星全能的木豆阅读(836) 评论(0) 推荐(0)

完整的多模态LLM的训练流程

摘要：目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0 多模态LLM架构6.1 一阶段预训练6.2 二阶段微调6.2.1 构造图像-指令遵循数据集6.2.2 训练方式6.2.3 质量评估6.3 链接外部工具6.3.1 构造<指令, API>数据6. 阅读全文

posted @ 2024-07-18 23:04 幻影星全能的木豆阅读(2433) 评论(0) 推荐(1)

mudou

随笔分类 - MM

公告