Diffusion学习路径
目录
非常好,这个问题问得对。
你要学文生图,最怕“东学一点西学一点”。给你一条可执行的路径(从 0 到能做项目)。
学习路径(建议 6 阶段)
阶段 1:先跑通(1周)
目标:先出图,不纠结原理。
学什么:
- 文生图基本概念:prompt、steps、CFG、sampler、seed
- 跑通 SD1.5 / SDXL
工具: - ComfyUI(推荐)或 A1111
产出: - 能稳定生成不同风格图片,知道参数怎么影响结果
- 先用 A1111 1-2 天
只学基础参数:prompt、negative、steps、CFG、sampler、seed。 - 马上转 ComfyUI(主线)
在 ComfyUI 里学:- ControlNet
- Inpaint
- 区域控制(可用区域遮罩/分区节点实现)
- 边学边做 workflow
每学一个功能就做一个可复用流程模板。
阶段 2:核心原理(1周)
目标:知道模型在干嘛,不做“黑盒调参”。
学什么:
- Diffusion 基本思想(加噪/去噪)
- 文本条件控制(text encoder)
- Latent Diffusion、VAE、U-Net/DiT
产出: - 能解释“为什么一句话能生成图”
阶段 3:可控生成(1-2周)
目标:从“随机出图”到“可控出图”。
学什么:
- LoRA(风格/角色)
- ControlNet(构图/姿态)
- IP-Adapter(参考图一致性)
- Inpaint/Outpaint(局部重绘)
工具: - ComfyUI 工作流
产出: - 一套可复用 workflow(比如角色一致+指定姿态+指定风格)
阶段 4:代码化与工程化(1-2周)
目标:从“手工点界面”到“程序可调用”。
学什么:
- Diffusers 基本调用(Python)
- 把生成流程封成 API(FastAPI)
- 队列、重试、超时、日志
产出: - 一个
/generate接口,可程序化生成图片
阶段 5:训练与定制(2周)
目标:做自己的风格/角色能力。
学什么:
- LoRA 训练(数据准备、caption、训练参数)
- 模型评估(画质、一致性、可控性)
工具: - Diffusers 训练脚本 或 kohya_ss
产出: - 你自己的 LoRA(比如“品牌风格”或“IP角色风格”)
阶段 6:产品化 MVP(1-2周)
目标:做一个能演示的产品。
功能建议:
- 文本输入
- 风格选择(LoRA)
- 参考图输入(IP-Adapter)
- 生成 4 张 + 下载
技术栈: - 前端(Gradio/React)
- 后端(FastAPI)
- 推理(ComfyUI API 或 Diffusers)
- 存储(OSS/S3)
产出: - 可用 Demo(可对外演示)
你是 Agent 工程师的特别建议
- 主线学 ComfyUI(工作流编排)
- 并行学 Diffusers(后端服务化)
- A1111 只用来快速熟悉参数
最短闭环(你现在就可以做)
- 用 ComfyUI 跑 SDXL 出图
- 加 LoRA + ControlNet 做可控生成
- 用 FastAPI 调 ComfyUI API
- 做一个“文本->图片”的最小网页
如果你愿意,我下一条可以直接给你一个30天学习计划(按天拆任务),你照着做就行。

浙公网安备 33010602011771号