【StableDiffusion教程】一文读懂Stable Diffusion(小白向)
Stable Diffusion直译为稳定扩散,理解稳定扩散之前先通过两张图片介绍一下什么是前向扩散和逆向扩散。
目录
- 什么是Stable Diffusion
- 常见功能模型
- Web UI操作界面演示
- Web UI如何一键亲自上手
什么是Stable Diffusion
Stable Diffusion直译为稳定扩散,理解稳定扩散之前先通过两张图片介绍一下什么是前向扩散和逆向扩散。
所谓前向扩散(forward diffusion)过程就是向训练图像中不断地添加噪声,从而使其逐渐变为一张毫无意义的纯噪声图。

经过前向扩散猫的图像变成了随机噪声
反过来,逆向扩散(Reverse Diffusion)过程是从一个随机噪声图像开始恢复出猫图像的过程。
通常扩散模型包含前向扩散和逆向扩散两个过程(如下图上下两个部分)。

因此,Stable Diffusion可以理解为从一张完全高斯噪音开始,根据用户输入的要求,逐步剔除噪音,直到产生出用户所要图片的过程。
它的核心是如何降噪(降噪模型),而降噪模型的核心是噪声预测器(根据用户文本输入,预测噪声),即高斯图片->逐步减去噪声->得到用户所需图片。
这个过程里面一共用到了图像编码器、文本编码器、扩散模型、图像解码器四个神经网络模型。
扩散模型:上图中下部分,用户输入提示词(加条件),降噪模型根据噪声预测器去除噪声
编码器:上图中红色色块,文本编码器将文本指令转换为计算机可以理解的数字,图像编码器将图像转换为潜在空间中的向量,图像解码器将图像从潜伏空间翻译成像素
功能列表
- 文生图
- 修复图片
- 扩展图片
- 图生图
常见功能模型
在Stable Diffusion中,基于训练方式的不同,分为Checkpoint、LoRA、Textual Inversion、Hypernetwork
通常也分为大模型和小型模型(微调大模型)
Checkpoint 大模型
Checkpoint 是 Stable Diffusion 中最重要的模型(也称主模型或者基础模型),模型后缀一般为 .ckpt 或者 .safetensors
主模型在使用WebUI时左上角进行切换。
LoRA 和 LyCORIS 小模型
LoRA 和 LyCORIS 都属于微调模型,一般用于控制画风、控制生成的角色、控制角色的姿势等等。LoRA 和 LyCORIS 的后缀均为 .safetensors
WebUI中点击左侧的小红灯,然后在LoRA菜单中点击使用。也可以直接使用Prompt调用。
Textual Inversion 小模型
Textual Inversion是文本编码器模型,用于改变文字向量,后缀为 .pt 或者 .safetensors
WebUI小红灯中的Textual Inversion,也可以使用Prompt调用。
Hypernetworks 小模型
Hypernetworks 模型用于调整模型神经网络权重,进行风格的微调。
ControlNet
ControlNet是一个及其强大的控制模型,它可以做到画面控制、动作控制、色深控制、色彩控制等等。使用时需要安装相应的扩展才可(Extensions页面搜索 ControlNet 扩展,然后 Install 并 Reload UI),后缀为.safetensors
VAE 类似滤镜
VAE 模型一般用于图片亮度和饱和度的修正、画面较正和以及补光等。一般在绘图时如果出现图片亮度过低、发灰等问题时就需要用到。后缀为 .pt 或 .safetensors
VAE使用可能的入口
- Settings 页面找到 SD VAE 菜单切换
- Quicksettings list 配置
- WebUI 的顶部
CodeFormer
CodeFormer 模型一般用于图片的修复,比如提高图片的分辨率、将黑白照片修改成彩色照片、人脸修复等等。
Extras 菜单中使用
操作界面演示

区域1、模型选择区
区域2、正向提示词
区域3、反向提示词
区域4、参数调整区
常用设置为区域4左上角采样器、右上角采样步数、左下角图像生成种子以及其上的提示词引导系数
中间区域的长宽也是影响图像出图效果的常见设置
区域5、生成按钮
区域6、小红点 - 打开lora设置等
区域7、图像展示区
区域8、VAE模型选择区
区域9、中文提示词输入插件
AI,有手就行_
模型:momoko
正向词:film portrait photography, 1girl, bare shoulders, wavy shoulder-length hair, serene, calm, (realistic detailed eyes, natural skin texture, realistic face details), soft dramatic lighting, depth of field, bokeh, vibrant details, finely detailed, hyperrealistic, 35mm film, hazy blur, filmg, lora:Style_FilmG3:0.8,tifa,lora:tifa_v2.3:0.8
反向词:cartoon, anime, sketches,(worst quality:1.3),(low quality:1.3), (deformed, distorted, disfigured), bad eyes, wrong nose, weird mouth, strange ears, bad anatomy, wrong anatomy, amputation, extra limb, missing limb, floating limbs, (bad teeth, mutated hands and fingers), disconnected limbs, mutation, ugly, disgusting, EasyNegative, bad_prompt_version2
效果图

以上图片中演示的功能能够在我的站点中直接打开工作台亲手制作,免软硬件安装+免配置环境
关于AI绘画技术储备
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!
对于0基础小白入门:
如果你是零基础小白,想快速入门AI绘画是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!
零基础AI绘画学习资源介绍
👉stable diffusion新手0基础入门PDF👈
(全套教程文末领取哈)
👉AI绘画必备工具👈

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉AI绘画基础+速成+进阶使用教程👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉12000+AI关键词大合集👈

这份完整版的AI绘画全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)