SD学习绘图最开始的第一步是文生图,这也是最基础的学习,今天我带大家先学习下文生图

img

文生图参数

01 模型选择

模型选择主要分大模型选择和VAE模型选择,这里根据你画的图具体进行选择,这个参数的选择难度不大。

img

02 Clip跳过层

Clip跳过层参数修改的比较少,为内容的完整性,简单阐述下它的作用。我们先开始测试看下,提示词输入“吉尼龟”、“可爱”、“帽子”和“水”这些关键词,固定种子点,调整Clip跳过层看下效果。

这里我们使用X\Y\Z图表脚本进行对比测试

img

通过横向对比Clip跳过层从1到10的不同设置,并结合两个模型的纵向对比,我们可以观察到一个总体的趋势:随着Clip跳过层数值的增高,所生成的图像中缺失了我们在提词器中设定内容的情况就越为明显。

img

最后结论:Clip跳过层的数值设置得越高,生成的图片与提词器中的关键词之间的相关性就越低。

这个结论作为新手我们知道就可以,大部分情况使用默认值1,不用修改参数

03 采样迭代步数

采样迭代步数就是用多少次来计算你提示词里的内容,我们设置1-40迭代步数并在里面选取10张图片进行对比看下

img

可以看到,当步数设置得过低时,生成的图像几乎无法展现出任何内容。因此,通常建议将步数控制在30步以内,因为一旦超过这个范围,虽然可能会继续提升图片生成的质量,但所需的时间和对GPU显存会显著增加,而收益却可能相对有限。

img

04 采样方法

采样方法也就是不同的算法选择。我们在之前关于采样迭代步数的对比基础上,增加了对所有采样方法的对比,以便进行更为全面的纵向对比分析。

img

在选择采样方法时,最佳方法就是亲身尝试,并结合个人的偏好来做出选择。

当前,网络上最为流行的几种采样方式包括:Euler a、DPM++ 2M Karras、DPM++ SDE Karras以及DDIM。

img

05 高清修复

高清修复功能主要图像的像素的扩大和高清处理,在一定程度上也可以帮助改善面部效果。

未开启高清修复,分辨率512*512,采样步数30,脸部稍微有点瑕疵

img

开启高清修复,分辨率1024*1024,采样步数30,放大算法:R-ESRGAN 4x+

img

脸部做了修复,但修复效果不是太好,这种情况最好进行脸部修复

对于三次元图像的处理,推荐选用R-ESRGAN 4x+算法;而对于二次元图像,则更适合使用R-ESRGAN 4x+ Anime6B算法。这两种算法在进行高清修复时通常能取得令人满意的效果。

img

一般来说,高清修复功能中的采样次数可以保持默认值0,这样它就会与采样迭代步数保持同步。

至于重绘幅度,该数值越高,最终生成的图像与原始图像的差异就会越大。通常情况下,将重绘幅度设置在0.4到0.7之间,效果会比较理想。

重绘幅度调整到1,生成的图像和原来差别较大

img

放大倍率这一参数,顾名思义,就是要在原有分辨率的基础上将图像放大多少倍。但需要注意的是,放大倍率不宜设置得过高,否则可能会导致显卡崩溃。一般来说,将放大倍率设置为2倍就足够了。

img

还需要注意的一点是,当遇到面部崩坏的情况时,面部修复和高清修复功能应该二选一,建议不要同时开启,否则可能会适得其反。

06 分辨率

分辨率的设置比较关键,SD 1.5的模型训练的图片分辨率是512*512,

img

SD2.1模型训练图片分辨率新增了768768,这也就是说几乎所有的模型训练的尺寸都是512512或者768*768。当图像的分辨率过低。

如低于256x256时,SD的性能可能会受到限制,从而可能导致图像质量的降低。

img

然而,如果我们将分辨率设置得过高,比如超过1024x1024,SD可能会胡乱处理,导致构图出现问题,甚至产生不协调或怪异的效果。

img

具体分辨率的设置,建议至少确保其中一个宽度或高度为512或768像素。有些图像处理模型还会明确给出推荐的分辨率范围。

img

如果你确实希望生成高分辨率的图像,一个可行的做法是首先生成一个较小分辨率的图像,然后在此基础上应用高清修复功能来进一步提升图像的清晰度。

07 生成批次和CFG

生成批次的概念很容易理解,它指的是每次生成多少组图像,而这些图像的随机种子则是按顺序递增的。

img

每批数量指的是每一组中包含的图像张数。如果我选择了生成3批图像,且每批数量为4张,那么最终我将得到总共12张图像。

img

CFG参数用于调节生成图像与给定提示词的相关性。该参数值越高,生成的图像越贴近提示词内容,但过高的设置可能会导致图像饱和度过高,出现过曝现象。

img

08 随机数种子

说到随机种子,我们首先需要了解一下AI绘图的基本工作原理。简单来说,AI绘图的过程就是从一张噪声图开始,然后通过不断地调整和优化,使其逐渐接近并符合我们给出的提示词,最终生成出一张图片。

在这个过程中,随机种子就扮演着决定这张初始噪声图角色的重任。为了更直观地展示这一过程,我使用了DPM++ 2M Karras这种采样模式,并生成了一个从采样迭代步数1到15的对比图。

img

可以看到,当采样迭代步数为1时,画面呈现为一个纯粹的噪声图。随后,随着步数的逐渐增多,这些噪声开始慢慢汇聚、成形,最终演变成为一张完整的图片。

img

之前我们已经提到过,当你对某个生成效果感到满意时,可以点击那个环保的图标按钮来固定当前的随机种子。

img

在硬件环境和参数设置保持不变的情况下,这样做可以确保你每次生成的图片都能达到99%的相似度。

img

另外,如果你点击骰子按钮,随机种子的数值会变为-1,这意味着每次都会采用一个新的随机种子来生成图片。

img

此外,激活倒三角旁边的按钮后,你还可以额外设置一个随机种子。通过调整差异强度,你可以将这两个种子的图片进行混合处理。

img

至于下面的宽度和高度选项,它们实际上是指定生成图片时按照你给出的分辨率进行构图或应用效果,但最终图片的分辨率仍然取决于你之前设置的出图分辨率。这个功能相对来说使用得比较少。

吉尼龟案例实践

上面详细讲述文生图的各项参数,现在我们把最开始做的吉尼龟做完,使用的提示词:一个吉尼龟,可爱,帽子,水,一个批次生成5张图片

正向提示词:terpiece,best quality,lsquirtle,cute,hat,water,

反向提示词:lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,

img

出问题了,生成出的图片多了个女孩,跟我们只想要一个吉尼龟不相符,可以通过正向提示词中加入“没有人类”进行控制。

同时为了避免翻车,反向提词里我输入了“NSFW(不适合在工作时间浏览的内容)”,权重为1.4:,再一个批次生成5张图片,选择一张比较满意的固定种子点:

img

现在已经初步生成自己满意的吉尼龟形象,下面我们开始微调:

提词内首先把“一个吉尼龟,可爱,帽子,水”改成了“吉尼龟戴着绿色的帽子,红色眼睛,可爱,水”,角色用“chibi”,Q版形象,说明吉尼龟是一个Q版的,

img

再加上“站立,张开短手臂,短腿,微笑”,说明吉尼龟的动作,一个Q版形象的吉尼龟已经画出来

img

现在图片的分辨率是512*512,,打开高分辨率修复,扩大图片。放大算法使用R-ESRGAN 4x+,放大倍率:2倍,我想保持这个形象,重绘幅度使用0.3,不要太大重绘,先看下效果

img

img

是不是挺不错,如果文生图的过程中出现“多手”、“多肢体”,可以在反向提示词中进行控制,调整提示词顺序,避免出现这种不好的现象!

这是一位SD资深大神整理的,100款Stable Diffusion超实用插件,涵盖目前几乎所有的,主流插件需求。

全文超过4000字。

我把它们整理成更适合大家下载安装的【压缩包】,无需梯子,并根据具体的内容,拆解成一二级目录,以方便大家查阅使用。

单单排版就差不多花费1个小时。

希望能让大家在使用Stable Diffusion工具时,可以更好、更快的获得自己想要的答案,以上。

如果感觉有用,帮忙点个支持,谢谢了。

想要原版100款插件整合包的小伙伴,可以来点击下方插件直接免费获取

img

100款Stable Diffusion插件:

面部&手部修复插件:After Detailer

在我们出图的时候,最头疼的就是出的图哪有满意,就是手部经常崩坏。只要放到 ControlNet 里面再修复。

现在我们只需要在出图的时候启动 Adetailer 就可以很大程度上修复脸部和手部的崩坏问题

img

AI换脸插件:sd-webui-roop

换脸插件,只需要提供一张照片,就可以将一张脸替换到另一个人物上,这在娱乐和创作中非常受欢迎。

img

模型预设管理器:Model Preset Manager

这个插件可以轻松的创建、组织和共享模型预设。有了这个功能,就不再需要记住每个模型的最佳 cfg_scale、实现卡通或现实风格的特定触发词,或者为特定图像类型产生令人印象深刻的结果的设置!

img

现代主题:Lobe Theme

已经被赞爆的现代化 Web UI 主题。相比传统的 Web UI 体验性大大加强。

img

提示词自动补齐插件:Tag Complete

使用这个插件可以直接输入中文,调取对应的英文提示词。并且能够根据未写完的英文提示词提供补全选项,在键盘上按↓箭头选择,按 enter 键选中

img

提示词翻译插件:sd-webui-bilingual-localization

这个插件提供双语翻译功能,使得界面可以支持两种语言,对于双语用户来说是一个很有用的功能。

img

提示词库:sd-webui-oldsix-prompt

提供提示词功能,可能帮助用户更好地指导图像生成的方向。

上千个提示词,无需英文基础快速输入提示词,该词库还在不断更新。

以后再也不担心英文写出不卡住思路了!

img

由于篇幅原因,有需要完整版Stable Diffusion插件库的小伙伴,点击下方插件即可免费领取

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐