传送锚点
1. Stable Diffusion 3.5 概述
Stable Diffusion 3.5 是一款拥有 20 亿参数的文本到图像模型,在照片级真实感、排版和提示词理解方面表现尤为出色。SD3.5 支持在 Replicate 等平台直接运行,且可用于商业用途,官方还开源了 Diffusers 和 ComfyUI 的实现,极大方便了开发者和 AI 爱好者的多场景部署。与以往的 Stable Diffusion 系列相比,SD3.5 在长提示词依从性、文本渲染和细节还原方面有显著提升。官方还推出了 SD3.5 Explorer 资源管理器模型,便于用户直观体验不同参数对生成效果的影响。

2. 模型权重与文本编码器选择
2.1 权重包类型与适用场景
Stability AI 针对不同硬件环境,给予了多种 SD3.5 Medium 权重包,核心区别在于内置的文本编码器(Text Encoder)配置,直接影响显存占用与生成效果:
sd3.5_medium_incl_clips_t5xxlfp8.safetensors:囊括模型权重、两个 CLIP 文本编码器和压缩为 fp8 的大型 T5-XXL 模型,推荐大多数用户优先选择,兼顾效果与资源消耗。
sd3.5_medium_incl_clips_t5xxlfp16.safetensors:T5 部分为 fp16,图像质量略有提升,但显存占用更高。
sd3.5_medium_incl_clips.safetensors:仅包含两个 CLIP 编码器,无 T5,适合显存有限的设备,但提示词遵循性和文本生成质量会有所下降。
sd3.5_medium.safetensors:仅含基础权重,无文本编码器,需自行加载编码器,适合高级用户自定义。

2.2 多文本编码器机制与提示注意事项
SD3.5 的多文本编码器设计允许用户针对不同编码器输入不同提示,理论上能够将整体风格交给 CLIP,细节描述交给 T5,但目前主流用法仍以统一提示为主。实际应用中,建议根据显卡 VRAM 选择合适的模型权重,保证生成过程的流畅性和最终画质。此外,SD3.5 并未针对否定提示词(Negative Prompt)进行训练,实际测试发现,否定提示词不会如预期那样去除不需要的元素,反而可能引入噪声或随机变化,因此建议在 SD3.5 中避免启用否定提示。多文本编码器提示理论上可分工,但主流用法仍以统一提示为主,建议用户在实际创作时优先考虑整体描述的完整性和清晰度。
3. 提示词与参数设置
3.5.1 长提示词帮助与写作建议
通过 ‘Are You My Boss?’,采用白色衬线字体,封面采用凉爽的蓝色和绿色调色板。”,SD3.5 能够准确还原画面细节和文本排版。建议将核心需求放在提示词前部,避免信息过载导致模型忽略部分描述。就是SD3.5 最大的变化之一是对长提示词的协助。你允许输入非常详细的描述,模型会尽力还原每个细节,不再受 CLIP 77 个 token 的限制,最长可达 10000 字符(约 1500 单词)。这意味着用户能够像写故事一样,用自然语言描述画面需求,极大提升了复杂场景和细节的还原能力。与 SDXL 等前代模型相比,SD3.5 在长提示下对文本、排版和多元素场景的理解力更强。例如,输入“ 一本 1970 年代精装儿童故事书的封面,带有黑白插图,一只白色的小鸟栖息在一只友好的老猎犬的头上。这只狗躺在地上,下巴贴在地板上。狗的耳朵又长又下垂,眼睛向上望着栖息在头上的小鸟。这只小白鸟正期待地低头看着狗。这本书的标题
3.5.2 参数设置详解
步数(Steps):建议 28 步,兼顾画质与速度,8-10 步即可出图,但细节和连贯性较弱,26-3.56 步为最佳区间。步数变化有时会导致画面主题发生较大变化,例如人物的性别、年龄等。
CFG(引导系数):推荐 3.5.5-4.5,数值过高会导致对比度过强(“烧焦感”),过低则图像与提示词相关性下降。低 CFG 时,不同编码器的输出差异减小。
分辨率:建议 1 MP 左右,宽高需为 64 的倍数,常用设置如 1:1 1024 x 1024、16:9 13.544 x 768、21:9 153.56 x 640、3.5:2 1216 x 83.52、2:3.5 83.52 x 1216、5:4 1088 x 896、4:5 896 x 1088、9:16 768 x 13.544、9:21 640 x 153.56。超出推荐分辨率时,中心区域依然能生成合理画面,但边缘会出现重复伪影,分辨率过小时则画面被裁剪。
采样器与调度器(Sampler & Scheduler):推荐 dpmpp_2mSampler + sgm_uniform,ComfyUI、Diffusers 等主流工具均已支持。部分采样器(如 ancestral、dekarras)与 SD3.5 不兼容。
Shift(时序偏移):SD3.5 新增参数,推荐默认 3.5.0,高分辨率下可适当提高(如 6.0),低值(1.5-2.0)则画面更“原始”。Shift 经过调整时间步调度,优化高分辨率下的噪声处理,提升画面质量。
4. 常见问题与实用建议
4.1 分辨率与画质
分辨率设置尤为关键,过大时中心区域画质优秀但边缘可能出现重复伪影,过小时画面容易被裁剪,细节丢失。建议根据实际需求选择合适分辨率,优先保证主体清晰。

4.2 步数与主题变化
步数越多,画面越细腻,但主题可能发生变化,例如人物的性别、年龄等会随步数调整而变化。建议多实验不同步数,找到最适合自己风格的区间。
4.3.5 参数组合与采样器兼容性
实际创作中,建议多尝试不同参数组合,记录每次生成的设置与效果,逐步积累经验,提升出图效率和质量。部分采样器与 SD3.5 不兼容,建议优先用官方推荐方案。
4.4 提示词撰写与商业化应用
提示词建议优先描述核心需求,避免冗余和歧义,尤其在涉及多元素和艰难场景时,尽量将每个元素的描述清晰分开。SD3.5 支持在共绩算力等平台直接部署,官方开源建立便于二次开发和集成。
5. 总结
小绩为读者们准备了开箱即用 的一键化部署文档,快来尝试吧:
https://www.gongjiyun.com/docs/y/ofl0wheysi5kwhkh2nfcownhnxf/he2rwioboiksqukqobxc2xnxnuf/
浙公网安备 33010602011771号