生成式人工智能体验[3]-StableDiffusion

摘要

简单体验Stable Diffusion Webui.

Stable Diffusion

[https://github.com/Stability-AI/stablediffusion]
[https://www.cnblogs.com/deephub/p/16902851.html]
[https://www.cnblogs.com/88223100/p/Principle-of-Stable-Diffusion-Operation.html]
Stable Diffusion是一个文本到图像的潜在扩散模型，由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型，可以生成包括人脸在内的任何图像，因为有开源的预训练模型，所以我们也可以在自己的机器上运行它.
了解 Stable Diffusion 是如何运行的，才能更好地控制 AI 绘画生成.
Stable Diffusion 技术，作为 Diffusion 改进版本，通过引入隐向量空间来解决 Diffusion 速度瓶颈，除了可专门用于文生图任务，还可以用于图生图、特定角色刻画，甚至是超分或者上色任务。
Stable Diffusion 的核心思想是，由于每张图片满足一定规律分布，利用文本中包含的这些分布信息作为指导，把一张纯噪声的图片逐步去噪，生成一张跟文本信息匹配的图片。它其实是一个比较组合的系统，里面包含了多个模型子模块，接下来把黑盒进行一步步拆解。stable diffusion 最直接的问题是，如何把人类输入的文字串转换成机器能理解的数字信息。这里就用到了文本编码器 text encoder（蓝色模块），可以把文字转换成计算机能理解的某种数学表示，它的输入是文字串，输出是一系列具有输入文字信息的语义向量。有了这个语义向量，就可以作为后续图片生成器 image generator（粉黄组合框）的一个控制输入，这也是 stable diffusion 技术的核心模块。图片生成器，可以分成两个子模块（粉色模块+黄色模块）.

(1) 文本编码器（蓝色模块），功能是把文字转换成计算机能理解的某种数学表示，在第三部分会介绍文本编码器是怎么训练和如何理解文字，暂时只需要了解文本编码器用的是 CLIP 模型，它的输入是文字串，输出是一系列包含文字信息的语义向量。
(2) 图片信息生成器（粉色模块），是 stable diffusion 和 diffusion 模型的区别所在，也是性能提升的关键，有两点区别：

图片信息生成器的输入输出均为低维图片向量（不是原始图片），对应上图里的粉色 44 方格。同时文本编码器的语义向量作为图片信息生成器的控制条件，把图片信息生成器输出的低维图片向量进一步输入到后续的图片解码器（黄色）生成图片。（注：原始图片的分辨率为 512512，有RGB 三通道，可以理解有 RGB 三个元素组成，分别对应红绿蓝；低维图片向量会降低到 64*64 维度）
Diffusion 模型一般都是直接生成图片，不会有中间生成低维向量的过程，需要更大计算量，在计算速度和资源利用上都比不过 stable diffusion；
(3) 图片解码器（黄色模块），输入为图片信息生成器的低维空间向量（粉色 4*4 方格），通过升维放大可得到一张完整图片。由于输入到图片信息生成器时做了降维，因此需要增加升维模块。这个模块只在最后阶段进行一次推理，也是获得一张生成图片的最终步骤。

从图片推测图片咒语(关键词,提示词)

图片咒语

[https://www.cnblogs.com/88223100/p/Introduction-to-the-Open-Source-Image-Model-Stable-Diffusion.html]
要素:

提示词(正面/负面)
模型
采样方法(Sampler)
采样步长
种子
提示词相关性(CFG Scale)

Sampler（采样器/采样方法）选择使用哪种采样器。Euler a（Eular ancestral）可以以较少的步数产生很大的多样性，不同的步数可能有不同的结果。而非 ancestral 采样器都会产生基本相同的图像。DPM 相关的采样器通常具有不错的效果，但耗时也会相应增加。

Euler 是最简单、最快的
Euler a 更多样，不同步数可以生产出不同的图片。但是太高步数 (>30) 效果不会更好。
DDIM 收敛快，但效率相对较低，因为需要很多 step 才能获得好的结果，适合在重绘时候使用。
LMS 是 Euler 的衍生，它们使用一种相关但稍有不同的方法（平均过去的几个步骤以提高准确性）。大概 30 step 可以得到稳定结果
PLMS 是 Euler 的衍生，可以更好地处理神经网络结构中的奇异性。
DPM2 是一种神奇的方法，它旨在改进 DDIM，减少步骤以获得良好的结果。它需要每一步运行两次去噪，它的速度大约是
DDIM 的两倍，生图效果也非常好。但是如果你在进行调试提示词的实验，这个采样器可能会有点慢了。
UniPC 效果较好且速度非常快，对平面、卡通的表现较好，推荐使用。

Sampling Steps（采样步数）Stable Diffusion 的工作方式是从以随机高斯噪声起步，向符合提示的图像一步步降噪接近。随着步数增多，可以得到对目标更小、更精确的图像。但增加步数也会增加生成图像所需的时间。增加步数的边际收益递减，取决于采样器。一般为 20~30。

图片咒语向导

[https://thereisnospon.github.io/NovelAiTag/]
[https://aitag.icu/#/taghome?search1=all&pageNum=1]
[https://aitag.top]
[http://www.prompttool.com/NovelAI]
[https://www.bilibili.com/video/BV1Le4y1E792/?vd_source=cafdc6675a9189bdcc87563d477a760d]

套路:质量词+背景+人物展示范围+摄像机角度+人物属性+衣物/装饰+风格

CLIP Interrogator

[https://www.wanwuwa.com/sites/3977.html]
[https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2?ref=nav.iotheme.cn]
Want to figure out what a good prompt might be to create new images like an existing one?
The CLIP Interrogator is here to get you answers!
This version is specialized for producing nice prompts for use with Stable Diffusion 2.0 using the ViT-H-14 OpenCLIP model!

Civitai模型下载站

[https://civitai.com/]
[https://ai-bot.cn/sites/2130.html]
[https://www.shejidaren.com/civitai.html]
Civitai是一个让人们轻松共享和发现创作人工智能艺术的资源平台,用户可以上传和共享他们使用自己的数据训练的自定义模型(主要基于Stable Diffusion),也可以浏览和下载其他模型.
Civitai是一个提供AI艺术资源分享和发现的平台，旨在帮助用户轻松探索并使用各类AI艺术模型。平台用户可以上传和分享自己用数据训练的AI自定义模型，或者浏览和下载其他用户创建的模型。这些模型可以与AI艺术软件一起使用，生成个性化、独特的艺术作品。
Civitai专注于Stable Diffusion的AI绘画模型技术，这是一种基于梯度下降的图像生成技术，可以根据文本或图像输入生成不同风格的艺术作品。平台上已经拥有超过1700个模型，由众多创作者上传和分享。每个模型都接受来自社区的评价，并提供12000多张带有提示语的示例图片，以帮助用户更好地理解和运用。除此之外，用户还可以上传自己训练的模型，丰富平台的资源库，互相分享和学习。Civitai为用户提供了一个艰难的艺术探索之路上的新引领，让您的作品更揽眼球。

体验

本地部署

docker run -v $PWD:/srv -p 8667:7860 qsbye/runtime-env3:v2-arm64 bash -c "bash webui.sh --skip-torch-cuda-test --use-cpu all --share --precision full --no-half"

访问:[127.0.0.1:8667]

使用微信小程序

小狸猫微信小程序(支持微信电脑版):

文字生成图片
反查关键词:

生成一张图片:

a painting of a woman standing in a garden, by Makoto Shinkai, pixiv contest winner, roses in her hair, animation style render, with a french garden, valentina remenar, aerith gainsborough, silvain sarrailh

图片生成图片

posted @ 2023-08-22 04:28 qsBye 阅读(261) 评论(0) 收藏举报

刷新页面返回顶部

qsBye