学习构建高级-AI-图像应用程序

学习构建高级 AI 图像应用程序

towardsdatascience.com/learn-to-build-advanced-ai-image-applications-9c98d0f1f930/

自定义图像生成

可视化图像生成开源空间 | 图片由作者提供

_ 如果你不是会员但想阅读这篇文章，请点击这里阅读。_

对于这篇文章，我想要接受挑战，让初学者在开源空间中制作高级图像生成变得更加容易。我意识到，在 20 分钟内完成这项任务是一项相当繁重的任务。

我们将涵盖这个空间正在发生的事情，哪些开源模型和工具受欢迎，学习扩散是如何工作的，并深入了解 LoRAs、ControlNets 和 IP 适配器等关键技术。

我们还将探索不同的用例以及如何将各种技术应用于每个用例。

最后，我们将创建一个使用 Flux 的室内设计师，它能够根据卧室的图片生成不同的设计。你可以在下面看到这将是什么样子。

ComfyUI 中的室内设计师工作流程 | 图片由作者提供

如果你急于开始，你可以跳过介绍，直接进入构建阶段。

简介

这一部分面向所有人，即使你不想深入研究与自定义图像生成相关的技术细节。

我们将探讨图像生成、开源和专有模型发布、可用的技术、一些用例以及构建的成本。

我在我的常规仓库中收集了一系列资源和信息这里，你可以稍后在这里找到。

生成式图像

如果你完全对生成式图像一无所知，你应该去做一些研究。

在过去的几年里，这个空间见证了真正的创新。

但不仅仅是现在你可以通过提示生成高质量图像，更重要的是，新技术使你能够对品牌、产品美学和这些图像中的个性化风格等方面进行精确控制。

在过去的几年里，开源社区一直非常忙碌，在构建方面。我们将探讨不同的用例以及这项技术是如何变化的。

封闭式与开源模型

我们首先应该了解这个空间中可用的 AI 模型，以及你应该专注于构建哪些模型。

可能是最古老且最广泛使用的——Stable Diffusion 1.5。它背后有一个庞大的社区支持，并且是完全开源的，这意味着你可以在其上构建商业 API。

在 2024 年，Black Forest Labs 发布了Flux，作为 MidJourney 等闭源系统的竞争对手。

最受欢迎的生成图像模型，发布年份和商业许可 | 作者提供的图片

Flux Schnell 是完全开源的，拥有商业许可，但更受欢迎的Flux Dev则不是。这并不意味着你不能在商业上使用 Flux Dev 的输出，但你不能在模型之上构建系统并出售它。

你可以在上面看到我对不同流行模型的涂鸦，注意它们是否开源并拥有商业许可。如果你想查看整个列表，请查看这个。

现在，虽然你可能想直接跳到 Flux 来处理所有项目，但请记住，一个模型可用的越久，围绕它的工具和资源就越多。

Stable Diffusion 1.5和Stable Diffusion XL拥有一些最大的社区，已经有许多工具和技术被开发出来。在你开始构建之前，不要完全忽视它们。

图像使用案例

在这个领域内，可能存在许多用例。

几天前，一些生成的AI 图像在 LinkedIn 上传播，这些图像显然非常逼真，以至于人们无法分辨出差异。这些图像是由这位创作者在 ComfyUI 中基于一位女性的度假照片的微调 LoRA 创建的。

现在，可能性并不止于此。

你会在下面看到我涂鸦的几个流行用例，以及它们相应的潜在技术。

不同的用例和技术，请在此这个存储库中查看清晰的列表 | 作者提供的图片

我有一个表格在这里，它组织得更好一些。

尽管如此，我们结合不同的工具来处理不同的工作流程。你经常会看到人们在使用 IP 适配器和额外的 LoRAs 的同时应用 ControlNet。

ComfyUI 与替代品

现在，为了构建高级生成图像应用程序，我们需要查看可用的工具。

我相信市场上有很多商业选项，但也有许多开源选项。这些选项在各个方面都更好，因为它们有更大的社区推动创新，并且是免费的。

到目前为止，最大的一个是ComfyUI。

ComfyUI 是一个基于节点的可视化 GUI，它让你完全控制扩散过程，使其成为创建自定义生成图像（甚至视频）的绝佳选择。

然而，许多人发现 ComfyUI 过于复杂，所以让我们快速探索一些替代方案。

生成式 AI 图像高级开源工具。查看列表此处 | 作者图片

许多替代方案的缺点是它们可能过于限制性，并且到目前为止已经过时。例如，A111 是更知名的 UI 之一，但目前它不支持较新的 Flux 模型。

ComfyUI 有一个学习曲线，学习基础知识可能需要几天时间，但任何有技术背景的人都应该能够掌握它。

如果你仍然觉得 ComfyUI 过于复杂，一个好的替代方案是SwarmUI，它是建立在 ComfyUI 之上的，并提供了简化的用户界面。

无论你选择哪种工具，这篇文章仍然有助于理解技术。

高级图像生成经济学

如果你是一个利益相关者，让我们简要谈谈使用 ComfyUI 等工具构建的成本。

要有效地运行这些工具，你需要良好的硬件，包括具有高 VRAM 的 GPU，这需要一定的投资。

或者，你可以租用云 GPU（我们所有人都在做），但这可能会迅速增加成本。最便宜的选择每小时大约是 0.60 美元，具体取决于你的配置。

尽管成本较高，但这可能仍然比雇佣外部顾问来构建、部署和维护工作流程更划算。让团队内部学习不仅节省了长期成本，还培养了内部的专业知识。

话虽如此，要获得高质量的结果并不容易。这项技术正在快速发展，网上到处都是过时的节点和工作流程。它也非常技术性，因此缺乏适当技能的团队可能会遇到困难。

仍然值得投资学习你可以用它做什么。

技术要点

让我们深入了解更技术性的内容，以便了解图像生成是如何工作的。我们还将设置 ComfyUI，并探索其布局，同时涵盖 LoRAs、ControlNets 和 IP 适配器等关键技术。

在本节的结尾，我们将构建室内设计师工作流程，这是一个相当简单的用例。

图像生成是如何工作的

图像生成与计算机视觉不同，尽管它们有一些重叠。计算机视觉专注于识别和分析图像内容。

如果你感兴趣探索计算机视觉用例，可以查看我一年前写的文章此处。

另一方面，图像生成属于生成式 AI 类别。它关于创建内容，而不是分析或解释它。这个空间中的主要模型类型是 GAN 和扩散模型。

这篇文章重点介绍了扩散模型，这是 ComfyUI 的主要选择，但如果你想要深入了解这个领域，这里有一些资源可用。

我想提到的是，当我们使用扩散模型生成图像时，我们是从随机噪声开始的，模型逐步细化它，直到形成一个连贯的图像。这个过程由我们的提示（嵌入）引导。

简化扩散过程 | 图片由作者提供

有些人称之为从噪声中创造艺术。

这里有几个部分都扮演着重要的角色。

我们有基础模型本身，CLIP 模型，它将我们的提示转换为模型可以处理的内容（即嵌入），以及一个自动编码器，它解码过程的输出，给我们一个可以使用的完成图像。

当与 MidJourney 等高级 UI 一起工作时，你不会参与这个过程，但在 ComfyUI 中，你拥有更多的控制权。

设置 ComfyUI

现在这个部分有点棘手。如果你有好的硬件，那么这只是在你的电脑上安装它。你可以查看这个指南以了解 Windows 和 Mac 的安装方法。

然而，在没有 GPU 的 MacBook 上使用 ComfyUI 将会很慢。如果你像我一样没有耐心，你需要一个 GPU。

这里有几个可用的选项，我在这里概述了它们。

不同的选择来托管 ComfyUI，请点击这里查看列表 | 图片由作者提供

我不想推荐任何特定的一个，但有些可以在几分钟内让你开始运行，这对于开始来说是非常理想的。不幸的是，这大约每小时需要 0.99 美元，相当昂贵。

一旦你开始每天使用它，我会建议寻找更好、更经济的选项。我从未热衷于拥有高端硬件，但这一点肯定在改变。

布局

我假设你已经找到了运行 ComfyUI 的方法，但如果还没有，并且你只想尝试这个下一部分画布，请点击这里。这个网站将让你免费运行更简单的东西（尽管你将被放入队列中，所以可能非常慢）。

如果你正在运行基于网页的 ComfyUI，它看起来会是这样 | 图片由作者提供

一旦你面前出现一个空白的黑色屏幕，可能会感到有些令人畏惧。不过，开始使用它很容易，而且你不需要了解这个工具的每一个部分就可以使用它。

需要知道的关键是，左键双击可以让你搜索要添加到工作流程中的节点。

在 ComfyUI 中左键双击搜索 | 图片由作者提供

要加载一个模型，你只需找到Load Checkpoint节点。

当通过Load Checkpoints节点使用模型时，你首先需要下载它们并将它们放置在models目录中以访问它们。这同样适用于其他模型，如 LoRAs、ControlNets 等（我们稍后会介绍）。

你需要将你使用的所有模型放在 ComfyUI 的models目录中。

如果你使用的是托管提供商，如上面提到的，它通常会帮助你加载那些初始模型。

你还应该知道，工作流程可以通过 JSON 文件轻松下载和上传。你只需将工作流程的 JSON 粘贴到画布中即可。

如果你需要安装或更新自定义节点，你需要访问ComfyUI Manager。对于由于缺少节点而抛出错误的流程，你将在这里搜索并安装或更新它们。

在进行我们的用例之前，我们将通过一个简单的Stable Diffusion工作流程和一个Flux工作流程进行说明。

关键构建块

我想将这部分图像生成的工作原理联系起来，使其更有意义。

你可能会认为这个过程过于复杂，但我们设置整个流程是有原因的，这样我们就可以在需要时将其分解，做一些真正酷的事情。

我们将添加的第一个节点是上面提到的Load Checkpoint。

在 ComfyUI 中搜索加载检查点 | 图片由作者提供

这是加载模型（检查点）及其相关组件（如CLIP 模型）的关键节点，该模型是一个文本编码器，它将我们的提示解释为模型可以理解的内容。

它还提供了嵌入在检查点中的VAE (变分自编码器)，在编码期间将图像压缩到潜在空间，在解码期间将其扩展回全分辨率。

你可以单独加载所有这些模型，我们稍后会为 Flux 这样做。

显然，检查点是流程的骨干。对你来说可能新的可能是直接处理 CLIP 和 VAE，当使用 MidJourney 等高级系统时，它们是隐藏的。

如果你感到不知所措，不要担心，很快你就会明白。

在此之后，我们需要通过搜索来获取两个CLIP Text Encode (Prompt)节点。我们需要一个用于正面提示，另一个用于负面提示。

设置你的正负提示 | 作者图片

这应该相当明显，但在一个提示中，你会写上你想要的内容，而在第二个提示中，你会写上你不想要的内容。

如果你右键点击这些节点，你可以更改它们的颜色和标题，以便更容易区分。

更改提示的颜色 | 作者图片

我们还将直接将CLIP 模型链接到提示。这个模型将文本转换为向量（一种数学表示），指导模型如何塑造图像。

接下来，我们需要添加一个空潜在图像节点。这个节点在潜在空间中创建一个“空”的潜在图像，其中填充了随机噪声，这将是扩散过程的起点。

这个节点创建一个“空”的潜在图像 | 作者图片

你将通过这个节点设置你想要生成的图像的尺寸和批量大小。

一旦所有这些节点都到位，我们还会添加KSampler。

连接所有节点 | 作者图片

KSampler 负责整个去噪过程，即它将随机噪声转换为我们生成图像的潜在表示。

对于这个节点，你可以保持设置不变，除非可能设置一个随机种子。

确保将模型、正负提示和潜在图像连接到KSampler（见上图）。

如果你愿意，可以使用自定义采样器，但第一次使用时，最好坚持使用现成的解决方案。

一旦所有这些节点都到位，我们还需要将 KSampler 产生的最终潜在表示解码成全分辨率图像。

VAE 解码节点将处理这个问题，所以请确保添加那个节点。

在 ComfyUI 中搜索 VAE 解码节点 | 作者图片

为了在处理完成后保存图像，我们将添加 ComfyUI 提供的保存图像节点。

完成的工作流程将看起来像这样。

确保所有节点在 ComfyUI 中连接 | 作者图片

你可以通过简单地按队列来运行工作流程。

图像将出现在保存图像节点中。

标准工作流程中 SD 在 ComfyUI 的结果 | 作者图片

我有四张图片，因为我将空潜在图像节点中的批量大小设置为 4。你的图片可能因使用的模型而异。

我们将在下一节中介绍检查点的工作原理。

这是标准的初学者工作流程，你通常在第一次加载 ComfyUI 时就会得到。

如果你想要使用 Flux 模型，你需要做一些调整。

首先，分别加载模型、CLIP 和 VAE。你还需要两个 CLIP 模型和 FluxGuidance 节点。

下面有一个 Flux 的示例，你可以按照它来操作。

ComfyUI 中使用 Flux 的标准工作流程的结果 | 作者图片

Flux 是构建来使用 标准 CLIP 模型 和 T5 语言模型分词器 来读取提示的，这就是为什么我们在这里加载了两个 CLIP 模型而不是一个。这据说赋予了 Flux 超越其他模型的提示跟随能力。

FluxGuidance 不是必需的，但它有助于文本编码器将你的图像生成“推动”到你的提示方向上更进一步。这应该会提高模型跟随你的提示的效果。

你可以从 1.0 设置到 100，我强烈建议你尝试调整它。

现在，如果你对深入了解更基础的方面感兴趣，我推荐这个教程。这个工具的美丽之处在于你可以真正控制你想要生成的图像。

模型检查点和 LoRAs

正如我们在基础知识中看到的那样，如果你使用任何 ComfyUI 托管服务，当你添加 加载检查点 节点时，你可能会看到一些可用的模型。

ComfyUI 中 Checkpoints 节点中的可用模型 | 作者图片

如果你已经在本地安装了 ComfyUI，你需要定位到文件夹 modelscheckpoints，将你想要的模型放在那里，然后重新加载 UI 以在下拉菜单中看到它们。

如果你刚开始使用 ComfyUI，你可能想知道如何找到这些模型以及应该放置什么类型的文件。在寻找模型时，你可以使用 HuggingFace 和 Civitai。

以下是如何通过 Civitai (Civitai) 查找检查点的说明，请访问模型页面然后筛选检查点。

Finding checkpoints in Civicai | 作者图片

模型相当大。如果你感到困惑，我这里整理了一些流行的检查点。你寻找的文件将具有 .safetensors 作为文件扩展名。

一旦你找到了你想要的，就下载它并将其放置在 ComfyUI 的 modelscheckpoints 目录中。是的，这取决于你的硬件和连接，可能需要相当长的时间。

这就引出了下一个话题：LoRAs。

LoRAs 的大小要小得多，可以附加到不同的检查点。它们是模型的微调附加组件。将基础模型（检查点）视为建造房子的蓝图。LoRA 就像添加定制油漆而不改变房子的结构一样。

每个 LoRA 都有自己的说明，所以请确保阅读模型页面了解如何使用它。有时你需要使用触发词或其他关键词在提示中使用它才能正常工作。

添加 LoRA 相当简单。你找到一个你喜欢的——就像我们寻找检查点一样——下载它，并将其粘贴到modelsloras目录中。如果你重新加载 ComfyUI，你应该会在加载 LoRA节点的下拉菜单中看到它。

注意：你可以微调自己的 LoRAs，但你现在需要自己寻找资源来做到这一点。

下面看看我是如何简单地添加加载 LoRA节点，设置lora_name（基于我下载的 LoRA），然后将其连接到检查点和 CLIP 模型的。

在 ComfyUI 中添加 LoRA 到你的工作流程 | 图片由作者提供

如果我们看看之前的 Flux 工作流程，添加AmateurPhoto LoRA将导致一个如下所示的工作流程。

在 ComfyUI 中添加 LoRA 到你的工作流程 | 图片由作者提供

这里唯一的改变是 LoRA 节点，现在模型和 CLIP 都通过它。如果我们运行它，我们会看到现在我们得到了一个更加逼真的熊猫，这个 LoRA 起到了作用。

基于不同模型的 LoRAs 有很多。是的，LoRA 需要与基础模型兼容，你不能混合它们。这意味着如果你使用 Flux Dev 作为基础，你将寻找专门为 Flux Dev 设计的 LoRAs。

关键技术（你想要使用的）

基础知识，就像我们刚才讨论的那样，涉及使用普通的检查点模型以及 LoRA 进行风格化。但使这个空间如此之好的是超越这些的可能性。

这一部分是关于ControlNets和IP 适配器。

ControlNet 和其他条件模型允许你根据边缘、深度图、涂鸦或图像的姿态更精确地引导图像生成过程。

你可以看到我正在测试使用 Canny 边缘、深度图和姿态处理狗的图像的几个选项。

测试不同 Controlnet 选项的狗的图像 | 图片由作者提供

有几种输入选项，但你需要能够正确处理这些输入的特定模型来生成图像。

例如，如果我们使用与兼容的 ControlNet 模型匹配的狗的 Canny 边缘，生成的图像将遵循轮廓，同时有自由解释其他一切，如颜色和纹理。

因此，选择一个拥有庞大社区支持的基础模型非常重要，这样你将有很多好的 ControlNet 模型可供选择。

IP 适配器（图像提示适配器）模型可以被视为 1 图像 LoRAs。如果你对 LoRAs 仍然感到困惑，那么可以将它们视为图像提示。它们将参考图像的风格转移到新图像上。因此，IP 适配器让你可以转移风格、合并图像和模仿面部等元素。

我收集了一些关于 ControlNets 和 IP 适配器的指南，这些指南有助于理解基础知识。我还包括了一些流行的模型，按照基础模型组织，在同一个仓库中。

除了这两种技术之外，还有更多流行的技术，如修复、扩展、上采样和分割。我发现这些技术更容易掌握。

你可以查看我组织下方的表格，了解每种技术。

不同的技术和它们的作用，请在此处查看列表这里 | 作者图片

一些技术并不总是需要特定的模型，但为了获得良好的结果，建议使用一个。

这种技术使我们能够做一些真正酷的事情。

你可以将品牌风格和标志转移到新的图像上。你可以将产品放置在新生成的图像中，以不同的节日主题用于社交媒体。你还可以将公司照片变成卡通。

我在同一仓库这里收集了一些用例和相关技术。这个领域有很多创意，我们将在未来几年内看到它的增长。

对于本文中的用例，我们需要查看可用的工具，因为我想要使用 Flux。

Flux 工具

正如我之前提到的，我们受限于每个基础模型可用的 ControlNets 和 IP 适配器。这些可以由原始创作者或社区创建。

由于 Flux 于 2024 年发布，它没有 Stable Diffusion 1.5 那样的社区支持。然而，这里仍然有一些非官方的 Flux 选项。你可以在同一个仓库中查看这些选项，以探索其中的一些。

话虽如此，在 2024 年 11 月，Flux 的创造者黑森林实验室发布了几个名为Flux Tools的新模型，以帮助使用 FLUX.1 控制和引导图像。

这些工具是 Flux 的官方 ControlNet 和 IP Adapter 模型。总共，他们发布了四个新模型：Canny, Depth, Fill, 和 Redux。

现在，我不知道是否建议您将这些用于生产用例，因为它们可能没有 SD 1.5 或 SDXL 的 ControlNets 具有相同的结果质量。我对此做了一些研究，社区发现它们很难使用，指出它们仍然不可靠。

但我决定无论如何都要为我们将要创建的室内设计师工作流程尝试一下。如果您没有得到想要的结果，请不要气馁，只需继续构建。

构建室内设计师

我已经完成了这个工作流程，您可以在这里找到它。您完全可以简单地加载并运行它，但这个练习的目的是让您自己学习。

我们将使用深度图，以便模型理解家具和空间应该如何看起来。

为了测试最终产品，我将抓取一个卧室的通用图片。见下文。

IKEA 提供的卧室通用图片

我们将立即查看结果，这样您就可以了解您可以通过简单的流程实现什么。

使用 Flux 生成的不同风格 AI 图像

使用 Flux 生成的具有斯堪的纳维亚风格的 AI 图像

使用 Flux 生成的不同风格 AI 图像

我只是在这里提示，同时添加了一些通用的 LoRAs，从基础图像中获取这些图像。

我相信人们最终会基于之前的工作开始构建室内设计师 LoRAs。这对当前的设计师来说也是一个可怕的可能性，但希望他们能利用它来自己的优势。

创建深度图

我们需要做的第一件事是在 ComfyUI 中加载一个新的空白画布，并确保你有足够的 VRAM 来运行这个工作流程。

我建议使用 24GB 的 VRAM 和 48GB 的 RAM（取决于你是否添加了 LoRA）。

接下来，我们需要添加加载图像节点以及AIO 辅助预处理器节点。这个节点将帮助预处理图像，用于 canny 或深度。

你可以查看下面的例子，我测试了 canny 和深度两种方法。

在 ComfyUI 中测试深度和 canny | 图片由作者提供

为了解释，这些图像将帮助我们生成 AI 图像，这些图像将遵循深度图或 canny 边缘。你可以使用特定的深度和 canny 节点，但我更喜欢使用DepthAnythingv2预处理程序来处理深度，如上所示。

你可以选择在这里使用 canny 而不是深度，但我认为官方的 Canny Flux 模型并不那么出色。

如果你想在 Flux 中使用 canny，请查看这个非官方模型列表，你可以尝试这些模型。

在我们继续之前，你可以选择移除 canny 边缘处理器。

模型

从这里，我们将遵循之前为 Flux 所做的相同步骤。添加加载扩散模型、DualCLIPLoader和加载 VAE节点。

记住左键双击以搜索这些节点。

在 ComfyUI 中添加第一个节点 | 图片由作者提供

对于加载扩散模型节点，你需要一个新的模型，名为flux1-depth-dev。如果你还没有下载，你可以在[这里]找到它。如果你使用的是 canny 图像，你需要flux1-canny-dev模型。

记住，这些模型是专门设计来处理深度和 canny 图像的。没有它们，你将无法以相同的方式控制输出。

对于CLIP 模型，你需要两个模型。参考图片，看看是哪两个——它们就是我们之前简单 Flux 工作流程中使用的相同模型。你可以在[这里]找到它们。

如果有任何东西缺失，你会得到一个错误，你需要找到缺失的模型并将其放置在正确的文件夹中。在这里你不必使用两个 CLIP，但这是推荐的。

提示词

接下来，你需要设置一个积极的提示词和一个负面的提示词（尽管 Flux 似乎忽略了负面的提示词）。

你需要指定你想要的设计，所以提示词将非常重要。去看看人们是如何提示设计空间的。

在 ComfyUI 中添加文本提示 | 图片由作者提供

如果你想要使用它，你可以通过这个工作流程加载我的确切提示词。

连接深度图

接下来，我们将添加一个之前未使用过的节点，称为Instruct Pix to Pix Conditioning。此节点便于对图像到图像翻译任务进行精确控制，以实现图像的调节。

你可能在这里使用ControlNet节点，但我没有尝试。

我们将深度图像连接到标有‘pixels’的端口，然后将剩余的节点连接到它。

请查看下面的图片以确保你正确操作。

在 ComfyUI 中添加Instruct Pix to Pix Conditioning节点 | 图片由作者提供

从这里，我们可以遵循之前工作流程中的相同步骤，将所有节点连接到KSampler。

连接所有节点 | 图片由作者提供

我设置了一个随机种子并将步骤增加到 40，这应该会提高生成图像的质量。

我们还使用了一个VAE Encode节点。虽然这不是严格必要的，但我使用原始图像的尺寸作为潜在变量，这有助于略微提高图像质量。

你可以从这里运行它。

在 ComfyUI 中运行工作流程 | 图片由作者提供

你应该在Save Image节点中看到新的图像。我还添加了一个LoRA。

在 ComfyUI 中添加 LoRA 到工作流程 | 图片由作者提供

参考上一节了解如何找到 LoRAs。对于这个例子，我使用的是iPhone Photo LoRA，它相当受欢迎。

现在，我建议尝试不同的图像、提示和 LoRAs，看看你能实现什么。提示非常重要，所以不要低估它的重要性。

你可以向上滚动再次查看我的结果。

注意事项

从这里开始，你理想上应该在此基础上构建，也许可以接收一个图像，然后使用视觉模型来分析布局并根据用户请求自动生成提示。

当你完全使用提示和深度图来解释内部时，你会得到最佳结果。

你可能还希望将此工作流程部署为 API，以便更容易使用。我肯定会在这篇未来的文章中涵盖这一点。

希望你得到了一些灵感。如果你想看到更多，请点赞。

❤

posted @ 2026-03-28 10:17 布客飞龙V 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟