详细介绍：如何从 Stable Diffusion3.5 中获得最佳结果

传送锚点

1. Stable Diffusion 3.5 概述

Stable Diffusion 3.5 是一款拥有 20 亿参数的文本到图像模型，在照片级真实感、排版和提示词理解方面表现尤为出色。SD3.5 支持在 Replicate 等平台直接运行，且可用于商业用途，官方还开源了 Diffusers 和 ComfyUI 的实现，极大方便了开发者和 AI 爱好者的多场景部署。与以往的 Stable Diffusion 系列相比，SD3.5 在长提示词依从性、文本渲染和细节还原方面有显著提升。官方还推出了 SD3.5 Explorer 资源管理器模型，便于用户直观体验不同参数对生成效果的影响。

在这里插入图片描述

2. 模型权重与文本编码器选择

2.1 权重包类型与适用场景

Stability AI 针对不同硬件环境，给予了多种 SD3.5 Medium 权重包，核心区别在于内置的文本编码器（Text Encoder）配置，直接影响显存占用与生成效果：

sd3.5_medium_incl_clips_t5xxlfp8.safetensors：囊括模型权重、两个 CLIP 文本编码器和压缩为 fp8 的大型 T5-XXL 模型，推荐大多数用户优先选择，兼顾效果与资源消耗。
sd3.5_medium_incl_clips_t5xxlfp16.safetensors：T5 部分为 fp16，图像质量略有提升，但显存占用更高。
sd3.5_medium_incl_clips.safetensors：仅包含两个 CLIP 编码器，无 T5，适合显存有限的设备，但提示词遵循性和文本生成质量会有所下降。
sd3.5_medium.safetensors：仅含基础权重，无文本编码器，需自行加载编码器，适合高级用户自定义。

在这里插入图片描述

2.2 多文本编码器机制与提示注意事项

SD3.5 的多文本编码器设计允许用户针对不同编码器输入不同提示，理论上能够将整体风格交给 CLIP，细节描述交给 T5，但目前主流用法仍以统一提示为主。实际应用中，建议根据显卡 VRAM 选择合适的模型权重，保证生成过程的流畅性和最终画质。此外，SD3.5 并未针对否定提示词（Negative Prompt）进行训练，实际测试发现，否定提示词不会如预期那样去除不需要的元素，反而可能引入噪声或随机变化，因此建议在 SD3.5 中避免启用否定提示。多文本编码器提示理论上可分工，但主流用法仍以统一提示为主，建议用户在实际创作时优先考虑整体描述的完整性和清晰度。

3. 提示词与参数设置

3.5.1 长提示词帮助与写作建议

通过 ‘Are You My Boss？’，采用白色衬线字体，封面采用凉爽的蓝色和绿色调色板。”，SD3.5 能够准确还原画面细节和文本排版。建议将核心需求放在提示词前部，避免信息过载导致模型忽略部分描述。就是SD3.5 最大的变化之一是对长提示词的协助。你允许输入非常详细的描述，模型会尽力还原每个细节，不再受 CLIP 77 个 token 的限制，最长可达 10000 字符（约 1500 单词）。这意味着用户能够像写故事一样，用自然语言描述画面需求，极大提升了复杂场景和细节的还原能力。与 SDXL 等前代模型相比，SD3.5 在长提示下对文本、排版和多元素场景的理解力更强。例如，输入“ 一本 1970 年代精装儿童故事书的封面，带有黑白插图，一只白色的小鸟栖息在一只友好的老猎犬的头上。这只狗躺在地上，下巴贴在地板上。狗的耳朵又长又下垂，眼睛向上望着栖息在头上的小鸟。这只小白鸟正期待地低头看着狗。这本书的标题

3.5.2 参数设置详解

步数（Steps）：建议 28 步，兼顾画质与速度，8-10 步即可出图，但细节和连贯性较弱，26-3.56 步为最佳区间。步数变化有时会导致画面主题发生较大变化，例如人物的性别、年龄等。
CFG（引导系数）：推荐 3.5.5-4.5，数值过高会导致对比度过强（“烧焦感”），过低则图像与提示词相关性下降。低 CFG 时，不同编码器的输出差异减小。
分辨率：建议 1 MP 左右，宽高需为 64 的倍数，常用设置如 1:1 1024 x 1024、16:9 13.544 x 768、21:9 153.56 x 640、3.5:2 1216 x 83.52、2:3.5 83.52 x 1216、5:4 1088 x 896、4:5 896 x 1088、9:16 768 x 13.544、9:21 640 x 153.56。超出推荐分辨率时，中心区域依然能生成合理画面，但边缘会出现重复伪影，分辨率过小时则画面被裁剪。
采样器与调度器（Sampler & Scheduler）：推荐 dpmpp_2mSampler + sgm_uniform，ComfyUI、Diffusers 等主流工具均已支持。部分采样器（如 ancestral、dekarras）与 SD3.5 不兼容。
Shift（时序偏移）：SD3.5 新增参数，推荐默认 3.5.0，高分辨率下可适当提高（如 6.0），低值（1.5-2.0）则画面更“原始”。Shift 经过调整时间步调度，优化高分辨率下的噪声处理，提升画面质量。

4. 常见问题与实用建议

4.1 分辨率与画质

分辨率设置尤为关键，过大时中心区域画质优秀但边缘可能出现重复伪影，过小时画面容易被裁剪，细节丢失。建议根据实际需求选择合适分辨率，优先保证主体清晰。

在这里插入图片描述

4.2 步数与主题变化

步数越多，画面越细腻，但主题可能发生变化，例如人物的性别、年龄等会随步数调整而变化。建议多实验不同步数，找到最适合自己风格的区间。

4.3.5 参数组合与采样器兼容性

实际创作中，建议多尝试不同参数组合，记录每次生成的设置与效果，逐步积累经验，提升出图效率和质量。部分采样器与 SD3.5 不兼容，建议优先用官方推荐方案。

4.4 提示词撰写与商业化应用

提示词建议优先描述核心需求，避免冗余和歧义，尤其在涉及多元素和艰难场景时，尽量将每个元素的描述清晰分开。SD3.5 支持在共绩算力等平台直接部署，官方开源建立便于二次开发和集成。

5. 总结

小绩为读者们准备了开箱即用的一键化部署文档，快来尝试吧：
https://www.gongjiyun.com/docs/y/ofl0wheysi5kwhkh2nfcownhnxf/he2rwioboiksqukqobxc2xnxnuf/

posted on 2025-09-21 14:33 lxjshuju 阅读(60) 评论(0) 收藏举报