摘要:
本文详细解析QwenVL2.5模型的处理流程及微调方法,包括模板化输入(通过processor.apply_chat_template处理对话messages,含<|im_start|>等标记模拟用户/assistant对话)、编码输入(图像处理采用smart_resize动态调整分辨率确保可被patch_size整除,经归一化后转为Vit的patch序列;文本通过tokenizer编码)、模型处理(视觉Transformer对pixel_values进行Conv3d处理生成特征,结合window-attention计算)。同时,阐述了SFT微调流程:数据层面构建对话模板生成input_ids、pixel_values等输入,模型层面采用QLoRA优化并结合gradient_checkpointing等显存优化策略。强化学习部分涵盖DPO(处理三元组数据计算chosen/rejected_logps,通过KL散度等计算loss)和GRPO(无需ref_model,利用reward_function及高熵过滤优化loss),为QwenVL2.5-3B的实际应用与性能提升提供技 阅读全文
posted @ 2025-09-22 22:22
Big-Yellow-J
阅读(730)
评论(0)
推荐(0)
摘要:
最新内容:https://www.big-yellow-j.top/posts/2025/08/28/MultiModal2.html 对于多模态系列模型大致的多模态大语言模型的通用模型框架和每个模块的一些实现方法[1]: 基本上就是对于图片/视频等通过不同的视觉编码器(Vit/Clip等)进行编码 阅读全文
posted @ 2025-09-22 22:21
Big-Yellow-J
阅读(114)
评论(0)
推荐(0)

浙公网安备 33010602011771号