Day26-文生图原理+实操

comfyui文生图原理+实操

comfyui的文生图架构

comfyui的文生图架构如图所示:

image-20260114143451274

其中潜空间部分相对比较难理解,接下来通过下图深入理解潜空间工作原理:

image-20260114144416978

经过潜空间的迭代去噪,最终需要通过像素空间将降噪后的结果还原为可识别的图像。

在comfyui中对应的条件空间、潜空间和像素空间对应的节点如下:

image-20260114145338637
模块/阶段 功能与原理说明 对应节点/组件
1. 条件空间处理
文本编码 通过CLIP 文本编码器将文本提示词转化为语义向量,建立文本与图像的关联性 CLIP 文本编码器(正向/负向)
大模型加载 加载相关模型 Checkpoint加载器
2. 潜空间生成
噪声初始化 生成指定尺寸的随机高斯噪声矩阵,作为生图的起点。 空Latent
迭代降噪(核心) 通过扩散模型(UNet)结合文本条件在潜空间逐步去除噪声 K采样器
3. 像素空间转换
潜空间解码 将降噪后的潜空间特征矩阵还原为高清像素图像 VAE 解码
图像输出 保存或预览最终生成的图像 保存图像

文生图实操

使用阿里云的cloudstudio部署的Comfyui

  • 添加【条件空间】相关节点

    • Checkpoint加载器
    • CLIP 文本编码器
    image-20260114153009292
    • 选择模型:

      image-20260114172510954

  • 添加【潜空间】相关节点

    • K采样器
    • 空Latent

    image-20260114153321259

  • 添加【像素空间】相关节点

    • VAE 解码
    • 图像保存

    image-20260114153736492

    最后注意,将所有连线串联完整!

模型相关

文生图大模型综合对比表

image-20260114150433996

常用大模型

  • 写实模型:

    • realisticVisionV51
  • 3d大模型:

    • dreamshaper_8
  • 卡通大模型:

    • meinamix
    • GhostMix鬼混_V2.0

下载链接: https://pan.baidu.com/s/19Len6XHX4L15MApaJq8Y2A?pwd=j9kz 提取码: j9kz

提示词编写技巧

一份清晰、结构化的提示词,能够更好地引导 AI 生成我们想要的画面。这里为大家推荐一个高效且易于上手的提示词编写模板

一、核心公式:三位一体结构

我们可以将提示词想象成向一位画家描述作品要求,一个高效的公式是:

质量词 + 内容描述 + 艺术风格

这三个部分依次决定了画面的 “精细度”“是什么”“像什么”

1. 质量词

这部分用于设定画面的基础质量和细节水平,通常放在提示词的最开头。

  • 常用词示例masterpiece(杰作)、highly detailed(高度细节)、Best quality(最佳质量)
  • 作用:相当于对 AI 说:“请用心画,画得精致一些。”

2. 内容描述

这是提示词的核心,用于描绘画面的具体内容。推荐采用 “谁 + 在哪里 + 做什么” 的结构进行组织,这样逻辑清晰,不易遗漏。

  • :主体是什么?例如:1girl(一个女孩)、an astronaut(一位宇航员)、a cute cat(一只可爱的猫)。
  • 在哪里:场景或背景是什么?例如:in a coffee shop(在咖啡馆)、on the moon(在月球上)、in a magical forest(在魔法森林中)。
  • 做什么:主体在发生什么动作或呈现什么状态?例如:smiling(微笑)、reading a book(看书)、flying a kite(放风筝)。
  • 细节补充:可以进一步描述外貌、服饰、表情、光线等,如 black curly hair, long hair, Big eyes, blue Shoulder skirt, Earrings(黑色卷发、长发、大眼睛、蓝色露肩裙、耳环)。

3. 艺术风格

这部分决定了画面的最终表现手法和审美基调。

  • 写实风格:追求像照片一样真实。关键词:photorealistic(照片般真实)、realistic(写实的)。
  • 3D 渲染风格:像三维软件制作的 CG 图像。关键词:3d rendering(3D 渲染)、CGI(电脑生成图像)。
  • 卡通/动画风格:具有手绘或动画质感。关键词:Cartoon(卡通)、Studio Ghibli(吉卜力工作室风格)、anime(动漫)。

二、参考案例与实操解析

假设我们想生成一张 “一位女孩在咖啡馆喝咖啡” 的精致写实图片。

  • 大模型选择:为了实现写实效果,我们可以选择擅长此类风格的模型,例如 realisticghostmix 等。

  • 正面提示词:这是我们希望画面中出现的内容。

    • text
    masterpiece, highly detailed, Best quality, 1girl, black curly hair, long hair, Big eyes, blue Shoulder skirt, Earrings, smiling, Coffee shop, have coffee, photorealistic
    
    • 结构分解
      • 质量词masterpiece, highly detailed, Best quality
      • 内容1girl(谁),black curly hair... Earrings(外貌细节),Coffee shop(在哪里),smiling, have coffee(做什么)
      • 风格photorealistic(写实风格)
  • 负面提示词:这是我们不希望画面中出现的内容,用于避免常见错误或瑕疵。

    • text
    nsfw, text, watermark
    
    • 含义解释
      • nsfw:排除不适宜公开的内容。
      • text:避免图片中出现无意义的文字符号。
      • watermark:避免出现类似水印的痕迹。

演示示例1:

这个示例营造一个充满幻想、色彩明媚的动画电影场景。

  • 正面提示词

    text

    Studio Ghibli style, masterpiece, beautiful and detailed, vibrant colors, a young explorer with a backpack and a straw hat, standing in a sun-dappled enchanted forest, giant glowing mushrooms and friendly forest spirits, looking up in awe, magical atmosphere, Miyazaki Hayao
    
    • 结构解析
      • 质量词masterpiece, beautiful and detailed
      • 内容a young explorer with a backpack and a straw hat(谁),standing in a sun-dappled enchanted forest, giant glowing mushrooms...(在哪里),looking up in awe(做什么),magical atmosphere(氛围)
      • 风格Studio Ghibli style, vibrant colors, Miyazaki Hayao(非常明确的风格指引)
  • 负面提示词

    text

    realistic, photorealistic, photo, dark, scary, horror, ugly, deformed, nsfw, text
    

演示示例2:

这个示例侧重于宏大的场景构建与特定的数字艺术风格。

  • 正面提示词

    text

    epic scale, concept art, digital painting, intricate details, a massive floating mechanical city overgrown with luminous plants, towering spires and flying vehicles, golden hour sunlight piercing through clouds, volumetric fog, by artists like Syd Mead and Moebius
    
    • 结构解析
      • 质量词epic scale, concept art, intricate details(这里用“概念艺术”和“史诗规模”来定义一种高质量标准)
      • 内容a massive floating mechanical city(场景主体),overgrown with luminous plants, towering spires and flying vehicles(场景细节),golden hour sunlight, volumetric fog(光影氛围)
      • 风格digital painting(风格媒介),by artists like...(通过参考艺术家来锁定特定审美风格)
  • 负面提示词

    text

    low resolution, pixelated, blurry, simple background, empty, cartoon, real photo, photograph, human, person, face
    

k采样器参数

参数类别 参数名称 说明 推荐值范围 作用效果与原理 实用示例
基础控制 随机种(Seed) 生成过程的“身份ID” 任意整数(如12345 本质是潜在空间中初始噪点图的坐标。相同种子+相同参数=几乎相同的输出,保证可复现性。是创作中微调的起点。 找到一张喜欢的图,记录其种子,可在此基础上仅修改提示词进行系列创作。
生成后控制 种子的行为模式 递增/递减/固定/随机 固定:保持当前种子不变;随机:每次生成全新种子。 批量生成不同创意时选“随机”;优化单张作品时选“固定”。
质量与时间 步数(Steps) 画师的“思考时间” 见右侧详解 去噪迭代次数。每一步都是对图像的一次“思考与修正”。 草图(5-15步):快速构思,适合分镜。 动漫/卡通(20-30步):风格化强,细节需求适中。 超写实/复杂场景(25-40步):需要更多步数打磨材质、光影等微观细节。
创意控制 CFG(提示词引导系数) 画师的“听话程度” 见右侧详解 控制生成结果与你的提示词之间的紧密度 创意发散(3-6):AI有更大自由发挥空间,色彩、构图可能更“艺术”,但可能偏离提示。 平衡可控(7-9):最常用范围,良好遵循提示的同时保持自然。 过度引导(>10):易产生“过度锐化”、“塑料感”、颜色饱和度过高或肢体扭曲。
算法核心 采样器(Sampler) 画师的“作画策略” 见右侧详解 决定了从纯噪声到清晰图像的“行走路径”。不同算法在速度、稳定性和风格倾向上有差异。 全能优选 dpmpp_2m:速度与质量平衡好,通用性强。 快速草图 euler/euler a:单步快,适合快速测试想法(euler a 是随机变体,更有趣)。 高质写实 dpmpp_sde:带随机微分方程,常能产出更丰富的细节和更“绘画感”的结果,但更慢。
调度器(Scheduler) 作画的“节奏大师” 见右侧详解 控制每一步噪声去除的“力度”变化曲线。影响收敛速度和最终纹理。 细节增强 karras:中后期步长变化,强调后期精细调整,常增加对比和细节。 平滑稳定 normal:线性或简单调度,产出更柔和、有时更“平均”的结果。 快速收敛 exponential:前期去噪猛,适合步数少时快速成型,但可能损失一些微妙过渡。
高级合成 降噪(Denoise) 新旧画面的“融合比” 0.0 - 1.0 在图生图(Latent)流程中,控制在初始图上应用新生成过程的比例 完整重绘(1.0):从初始潜变量完全重新生成。 风格融合(0.5-0.8):保留原图大致构图和色彩,注入新风格或内容。 微调优化(0.2-0.4):仅做轻微色调、细节调整。 抽象叠加(<0.3):产生类似双重曝光的多层抽象效果。

步数测试:

  • 推荐参数:
    • 卡通20,写实30

image-20260118144052630

cfg测试

  • 推荐参数:
    • 7左右

image-20260118144235132

步数(Steps) vs. 采样器(Sampler)

  • 误区纠正:“步数越高=质量越好”不完全正确。每个采样器都有其“收益饱和点”
  • 示例对比
    • 使用 euler 采样器,可能15步后细节就不再显著提升,而30步只是浪费时间。
    • 使用 dpmpp_2m 采样器,可能在25步达到最佳平衡,40步能挖掘出更微妙的纹理。
  • 行动建议:为你的常用采样器做阶梯测试(如5, 15, 25, 35步),找到其“性价比”最高的步数区间。

cfg与采样器的化学反应

  • 关键洞察:cfg的效果强烈依赖采样器
    • 对于 euler 这类简单采样器,CFG>9就极易崩坏。
    • 对于 dpmpp_sde 这类复杂采样器,CFG在7-11之间可能仍能保持稳定,并产出高动态范围的作品。
  • 测试任务:固定一个复杂人像提示词,用 dpmpp_2m 测试CFG=7, 9, 12。观察面部细节、瞳孔高光和发丝锐利度的变化。

调度器:改变图像的“质感”

让我们通过一个具体场景来理解:

  • 提示词A weathered ancient stone statue, moss covering, morning mist, forest
  • 测试组合
    1. dpmpp_2m + karras:雕像表面会显得更粗糙、更戏剧化,苔藓细节分明,像一张高清摄影。
    2. dpmpp_2m + normal:雕像可能更光滑、整体更统一,雾气更柔和,像一幅古典油画。
  • 原理karras调度在最后几步使用极小的步长,相当于画师在收尾时用了更细的笔刷进行“精雕细琢”。

推荐组合配置模板

创作目标 采样器 步数 CFG 调度器 说明
快速创意探索 euler a 12-18 7-8 normal 快速试错,捕捉灵感,不拘泥于细节。
高质量动漫/角色 dpmpp_2m 25-30 7.5-8.5 karras 平衡速度与角色细节、线条清晰度。
超写实照片/场景 dpmpp_sde 30-35 8-9.5 karras 最大化材质、光影和复杂场景的细节深度。
艺术感绘画/概念 dpmpp_2m 28-35 6-7.5 normal 给予AI更多创作自由,获得更“绘画性”而非“照片性”的结果。
图生图风格融合 dpmpp_2m 20-25 7-8 normal 降噪设置在0.5-0.75,平衡原图信息与新指令。

最终建议:理解参数最好的方式就是控制变量法测试。创建一个你最喜欢的提示词,然后每次只改变一个参数(如固定其他,只从CFG=7调到CFG=12),像做科学实验一样观察其带来的视觉变化,你将成为真正驾驭AI的画师。

posted @ 2026-01-19 18:52  凫弥  阅读(2)  评论(0)    收藏  举报