摘要: 本文介绍生成模型开发常用Python库,重点讲解Diffusers和Accelerate的基本使用。Accelerate支持分布式训练、混合精度训练、梯度累计等加速方法,简化多显卡训练流程;Diffusers包含Scheduler(加噪处理、逐步解噪)、Stable Diffusion Pipeline等,辅助实现生成模型的训练与推理,为算法工程师提供高效工具支持。 阅读全文
posted @ 2025-08-07 09:54 Big-Yellow-J 阅读(193) 评论(0) 推荐(0)
摘要: 图神经网络基础理论及实操 推荐阅读: 1、https://github.com/PacktPublishing/Hands-On-Graph-Neural-Networks-Using-Python 2、GAT:http://arxiv.org/abs/1710.10903 3、GCN:http:/ 阅读全文
posted @ 2024-02-24 21:26 Big-Yellow-J 阅读(594) 评论(0) 推荐(0)
摘要: From:https://www.big-yellow-j.top/posts/2025/10/11/Quantized.html 模型量化技术 简单了解几个概念: 量化:是一种模型压缩的常见方法,将模型权重从高精度(如FP16或FP32)量化为低比特位(如INT8、INT4)。常见的量化策略可以分 阅读全文
posted @ 2025-11-01 11:05 Big-Yellow-J 阅读(16) 评论(0) 推荐(0)
摘要: 评价指标 准确率/精确率/召回率 Positive (预测到的正例) Negative (预测到的反例) True (预测结果为真) TP TN False (预测结果为假) FP FN 争对正案例的计算: 1、准确率计算方式(ACC):\(Acc= \frac{TP+TN}{TP+TN+FP+FN 阅读全文
posted @ 2025-11-01 11:04 Big-Yellow-J 阅读(38) 评论(0) 推荐(0)
摘要: 本文详细解析QwenVL2.5模型的处理流程及微调方法,包括模板化输入(通过processor.apply_chat_template处理对话messages,含<|im_start|>等标记模拟用户/assistant对话)、编码输入(图像处理采用smart_resize动态调整分辨率确保可被patch_size整除,经归一化后转为Vit的patch序列;文本通过tokenizer编码)、模型处理(视觉Transformer对pixel_values进行Conv3d处理生成特征,结合window-attention计算)。同时,阐述了SFT微调流程:数据层面构建对话模板生成input_ids、pixel_values等输入,模型层面采用QLoRA优化并结合gradient_checkpointing等显存优化策略。强化学习部分涵盖DPO(处理三元组数据计算chosen/rejected_logps,通过KL散度等计算loss)和GRPO(无需ref_model,利用reward_function及高熵过滤优化loss),为QwenVL2.5-3B的实际应用与性能提升提供技 阅读全文
posted @ 2025-09-22 22:22 Big-Yellow-J 阅读(729) 评论(0) 推荐(0)
摘要: 最新内容:https://www.big-yellow-j.top/posts/2025/08/28/MultiModal2.html 对于多模态系列模型大致的多模态大语言模型的通用模型框架和每个模块的一些实现方法[1]: 基本上就是对于图片/视频等通过不同的视觉编码器(Vit/Clip等)进行编码 阅读全文
posted @ 2025-09-22 22:21 Big-Yellow-J 阅读(114) 评论(0) 推荐(0)
摘要: 本文介绍基座扩散模型,涵盖基于Unet的SD1.5、SDXL、Imagen及基于DiT框架的Hunyuan-DiT等。对比SD1.5与SDXL差异:SDXL采用双CLIP编码器(OpenCLIP-ViT/G+CLIP-ViT/L)提升文本理解,默认输出1024x1024图像;解析Imagen多阶段生成策略、DiT的patch分割与adaLN结构,以及ControlNet、DreamBooth等Adapter技术在图像生成控制中的应用。 阅读全文
posted @ 2025-08-07 09:44 Big-Yellow-J 阅读(361) 评论(0) 推荐(0)
摘要: 图像擦除是图像生成模型重要应用,本文介绍CVPR-2025相关的SmartEraser、Erase Diffusion、OmniEraser模型,涵盖数据集构建(实体过滤、混合高斯算法MOG)、关键技术(语义分割SAM、CLIP、IoU、alpha blending、GroundDINO+SAM2)及模型优化(输入改进、mask处理、微调FLUX.1-dev)等内容。 阅读全文
posted @ 2025-07-04 09:24 Big-Yellow-J 阅读(194) 评论(0) 推荐(0)
摘要: 一致性模型(consistency model)是扩散模型(Diffusion Models)的图像生成加速方法,通过将随机过程转化为常微分方程(ODE),引入Consistency Regularization实现一步或少数几步生成。LCM/LCM-Lora进一步通过Skipping-Step和Classifier-free guidance(CFG)优化,代码可参考diffusers库实践。 阅读全文
posted @ 2025-07-02 22:17 Big-Yellow-J 阅读(919) 评论(0) 推荐(0)
摘要: 更加好的排版:https://www.big-yellow-j.top/posts/2025/06/11/ImageEraser1.html 本文主要介绍几篇图像擦除论文模型:PixelHacker、PowerPanint等,并且实际测试模型的表现效果 PixelHacker Code: https 阅读全文
posted @ 2025-06-21 15:25 Big-Yellow-J 阅读(107) 评论(0) 推荐(0)
摘要: 扩散模型通过前向加噪与反向去噪过程实现图像生成,核心为噪声调度控制加噪权重,反向过程用神经网络近似分布。介绍条件扩散模型(文本等条件指导生成)、潜在扩散模型(低维潜在空间建模)及DDPM、DDIM等变体,涉及Unet、Dit等模型结构,训练目标为预测噪声以优化去噪生成效果。 阅读全文
posted @ 2025-06-21 15:24 Big-Yellow-J 阅读(621) 评论(0) 推荐(2)
levels of contents