Big-Yellow-J

[置顶] 深入浅出了解生成模型-5：diffuser/accelerate库学习及其数据合成

摘要：本文介绍生成模型开发常用Python库，重点讲解Diffusers和Accelerate的基本使用。Accelerate支持分布式训练、混合精度训练、梯度累计等加速方法，简化多显卡训练流程；Diffusers包含Scheduler（加噪处理、逐步解噪）、Stable Diffusion Pipeline等，辅助实现生成模型的训练与推理，为算法工程师提供高效工具支持。阅读全文

posted @ 2025-08-07 09:54 Big-Yellow-J 阅读(328) 评论(0) 推荐(0)

[置顶] 图神经网络基础理论及实操

摘要：图神经网络基础理论及实操推荐阅读： 1、https://github.com/PacktPublishing/Hands-On-Graph-Neural-Networks-Using-Python 2、GAT：http://arxiv.org/abs/1710.10903 3、GCN：http:/ 阅读全文

posted @ 2024-02-24 21:26 Big-Yellow-J 阅读(737) 评论(0) 推荐(0)

2026年1月25日

深入浅出了解生成模型-8：生成加速策略概述

摘要：扩散模型生成加速策略主要包括加速框架优化、Cache策略及量化技术。加速框架方面，可通过指定attention计算后端（如flash_attn）、torch.compile编译、torch.channels_last优化内存访问，或使用xFormers加速attention计算并降低显存，配合CPU卸载、设备分配等显存优化措施。Cache策略利用扩散过程时间冗余，如DeepCache缓存UNet高层特征、FORA复用DiT的Attn和MLP层特征，FBCache基于First Block L1误差判断是否复用残差，CacheDit结合前n层缓存与阈值判断实现加速。量化技术通过PTQ或QAT降低显存并加速，如Bitsandbytes的即时可逆int4/int8量化、SVDQuant分解权重吸收异常值后量化残差、GGUF格式的紧凑编码与多种PTQ量化级别。测试显示，结合channel优化、flash_attn及cache-dit等策略可有效缩短生图时间。阅读全文

posted @ 2026-01-25 23:16 Big-Yellow-J 阅读(204) 评论(0) 推荐(0)

2026年1月21日

模型推理框架——vllm原理及整体框架

摘要： Page Attention是优化KV-cache内存管理的方法，可解决预留浪费、内部及外部内存碎片化问题，通过将KV-cache划分为固定大小Block，利用Block Table维护逻辑与物理映射，有效管理非连续内存；同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在线调用，初始化过程包括模型加载、KV Cache显存预分配（计算可用内存、num_blocks及总token数）并加载到GPU，提升内存使用效率。阅读全文

posted @ 2026-01-21 10:12 Big-Yellow-J 阅读(50) 评论(0) 推荐(0)

2025年11月1日

模型量化操作————GPTQ和AWQ量化

摘要： From：https://www.big-yellow-j.top/posts/2025/10/11/Quantized.html 模型量化技术简单了解几个概念：量化：是一种模型压缩的常见方法，将模型权重从高精度（如FP16或FP32）量化为低比特位（如INT8、INT4）。常见的量化策略可以分阅读全文

posted @ 2025-11-01 11:05 Big-Yellow-J 阅读(363) 评论(0) 推荐(0)

深度学习基础理论————常见评价指标以及Loss Function

摘要：评价指标准确率/精确率/召回率 Positive (预测到的正例) Negative (预测到的反例) True (预测结果为真) TP TN False (预测结果为假) FP FN 争对正案例的计算： 1、准确率计算方式（ACC）：\(Acc= \frac{TP+TN}{TP+TN+FP+FN 阅读全文

posted @ 2025-11-01 11:04 Big-Yellow-J 阅读(114) 评论(0) 推荐(0)

2025年9月22日

多模态模型——QwenVL2.5的微调以及强化学习代码操作

摘要：本文详细解析QwenVL2.5模型的处理流程及微调方法，包括模板化输入（通过processor.apply_chat_template处理对话messages，含<|im_start|>等标记模拟用户/assistant对话）、编码输入（图像处理采用smart_resize动态调整分辨率确保可被patch_size整除，经归一化后转为Vit的patch序列；文本通过tokenizer编码）、模型处理（视觉Transformer对pixel_values进行Conv3d处理生成特征，结合window-attention计算）。同时，阐述了SFT微调流程：数据层面构建对话模板生成input_ids、pixel_values等输入，模型层面采用QLoRA优化并结合gradient_checkpointing等显存优化策略。强化学习部分涵盖DPO（处理三元组数据计算chosen/rejected_logps，通过KL散度等计算loss）和GRPO（无需ref_model，利用reward_function及高熵过滤优化loss），为QwenVL2.5-3B的实际应用与性能提升提供技阅读全文

posted @ 2025-09-22 22:22 Big-Yellow-J 阅读(1638) 评论(0) 推荐(0)

多模态算法QwenVL、KimiVL等算法原理

摘要：最新内容：https://www.big-yellow-j.top/posts/2025/08/28/MultiModal2.html 对于多模态系列模型大致的多模态大语言模型的通用模型框架和每个模块的一些实现方法[1]：基本上就是对于图片/视频等通过不同的视觉编码器（Vit/Clip等）进行编码阅读全文

posted @ 2025-09-22 22:21 Big-Yellow-J 阅读(316) 评论(0) 推荐(0)

2025年8月7日

深入浅出了解生成模型-6：常用基座模型与 Adapters等解析

摘要：本文介绍基座扩散模型，涵盖基于Unet的SD1.5、SDXL、Imagen及基于DiT框架的Hunyuan-DiT等。对比SD1.5与SDXL差异：SDXL采用双CLIP编码器（OpenCLIP-ViT/G+CLIP-ViT/L）提升文本理解，默认输出1024x1024图像；解析Imagen多阶段生成策略、DiT的patch分割与adaLN结构，以及ControlNet、DreamBooth等Adapter技术在图像生成控制中的应用。阅读全文

posted @ 2025-08-07 09:44 Big-Yellow-J 阅读(556) 评论(0) 推荐(0)

2025年7月4日

图像擦除论文-2：SmartEraser、Erase Diffusion、OmniEraser

摘要：图像擦除是图像生成模型重要应用，本文介绍CVPR-2025相关的SmartEraser、Erase Diffusion、OmniEraser模型，涵盖数据集构建（实体过滤、混合高斯算法MOG）、关键技术（语义分割SAM、CLIP、IoU、alpha blending、GroundDINO+SAM2）及模型优化（输入改进、mask处理、微调FLUX.1-dev）等内容。阅读全文

posted @ 2025-07-04 09:24 Big-Yellow-J 阅读(472) 评论(0) 推荐(0)

2025年7月2日

深入浅出了解生成模型-4：一致性模型（consistency model）

摘要：一致性模型（consistency model）是扩散模型（Diffusion Models）的图像生成加速方法，通过将随机过程转化为常微分方程（ODE），引入Consistency Regularization实现一步或少数几步生成。LCM/LCM-Lora进一步通过Skipping-Step和Classifier-free guidance（CFG）优化，代码可参考diffusers库实践。阅读全文

posted @ 2025-07-02 22:17 Big-Yellow-J 阅读(1551) 评论(0) 推荐(0)

公告