本文简化自AI225导航的详细Stable Diffusion WebUI指南,如需了解更多技术细节,请访问原文章。

什么是Stable Diffusion WebUI?

Stable Diffusion WebUI是由AUTOMATIC1111开发的一个基于Gradio库的Stable Diffusion网页界面,它为用户提供了强大而灵活的AI图像生成体验。作为目前最受欢迎的Stable Diffusion界面之一,它具有以下特点:

  • 基于Gradio库实现的网页界面
  • 支持txt2img(文本到图像)和img2img(图像到图像)两种基本模式
  • 提供丰富的图像处理功能和参数调整选项
  • 支持多种扩展和自定义脚本
  • 活跃的社区支持和持续的更新迭代
  • 跨平台支持(Windows、Linux、macOS)

项目GitHub地址https://github.com/AUTOMATIC1111/stable-diffusion-webui

核心功能介绍

基础功能

  1. txt2img模式:根据文本提示生成图像
  2. img2img模式:基于参考图像生成新图像
  3. Outpainting(外绘):扩展图像边界
  4. Inpainting(内绘):修改图像特定区域
  5. Color Sketch(色彩草图):基于草图生成彩色图像

高级功能

  1. Prompt Matrix(提示矩阵):同时测试多个提示词组合
  2. Stable Diffusion Upscale(放大):提高图像分辨率
  3. Attention(注意力):控制模型对提示词特定部分的关注度
  4. Loopback(循环处理):多次运行img2img处理
  5. X/Y/Z plot:绘制不同参数的三维图像图表
  6. Composable-Diffusion(可组合扩散):一次使用多个提示词的方法

模型与训练功能

  1. Textual Inversion(文本反转):训练自定义文本嵌入
  2. Hypernetworks(超网络):训练自定义网络以改变输出风格
  3. Loras:类似于超网络但更美观的风格控制方法
  4. Checkpoint Merger:合并最多3个检查点为一个

图像处理功能

Extras标签页提供了多种图像处理工具:

  • GFPGAN:修复面部的神经网络
  • CodeFormer:GFPGAN的替代面部修复工具
  • RealESRGAN:神经网络放大器
  • ESRGAN:支持多种第三方模型的神经网络放大器
  • SwinIR和Swin2SR:神经网络放大器
  • LDSR:潜在扩散超分辨率放大

安装指南

Windows系统安装(NVIDIA显卡)

方法一:使用发布包
  1. 从v1.0.0-pre下载sd.webui.zip并解压
  2. 运行update.bat
  3. 运行run.bat
方法二:自动安装
  1. 安装Python 3.10.6(注意:更新版本的Python不支持torch),勾选"Add Python to PATH"
  2. 安装git
  3. 通过运行git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git下载stable-diffusion-webui仓库
  4. 以普通用户身份从Windows资源管理器运行webui-user.bat

注意:必须使用Python 3.10.6版本,更新的Python版本存在PyTorch兼容性问题

Linux系统安装

  1. 安装依赖:
# Debian-based:
sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0
# Red Hat-based:
sudo dnf install wget git python3 gperftools-libs libglvnd-glx
# openSUSE-based:
sudo zypper install wget git python3 libtcmalloc4 libglvnd
# Arch-based:
sudo pacman -S wget git python3
  1. 导航到您想要安装webui的目录并执行以下命令:
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
  1. 运行webui.sh

Apple Silicon安装

Apple Silicon的安装说明可以在官方wiki找到。Apple Silicon用户需要特别注意依赖项的安装和配置。

使用技巧

1. 提示词技巧

基本提示词结构

[主体], [细节描述], [风格], [构图], [ lighting/光照], [color/色彩]

示例

a beautiful woman, detailed face, long brown hair, blue eyes, wearing a red dress, standing in a garden, photorealistic, 8k, sharp focus, studio lighting, vibrant colors

使用负面提示词

low quality, worst quality, blurry, deformed, disfigured, poorly drawn face, mutation, mutated

2. 注意力控制

使用括号控制模型对提示词不同部分的关注度:

  • (keyword):增加1.1倍注意力
  • ((keyword)):增加1.21倍注意力
  • (keyword:1.5):增加1.5倍注意力
  • [keyword]:减少注意力

3. 提示词编辑

在生成过程中更改提示词:

a watermelon, [to:anime girl:when 10] 

这会在生成过程的第10步将主题从西瓜改为动漫女孩。

您也可以使用更复杂的语法:

[from:to:when] 
[from:to:when:to:when] 

例如:

a watermelon, [to:anime girl:when 10], [to:with cat:when 15]

这会在第10步将主题从西瓜改为动漫女孩,然后在第15步添加一只猫。

4. 使用多个提示词

使用AND组合多个提示词:

a cat :1.2 AND a dog AND a penguin :2.2

5. 图像参数调整

  • Sampling steps(采样步数):通常20-30步即可获得良好效果
  • CFG Scale(提示词相关性):通常7-12之间,值越高越遵循提示词
  • Resolution(分辨率):建议使用512×512或768×768的倍数
  • Batch count(批次数)Batch size(批量大小):控制生成图像数量

高级应用

1. 模型合并

使用Checkpoint Merger选项卡可以合并最多3个模型:

  1. 选择主模型(Primary model)
  2. 选择要合并的第二个模型(Secondary model)
  3. 可选:选择第三个模型(Tertiary model)
  4. 调整合并比例(Multiplier)和插值方法
  5. 选择保存格式(ckpt或safetensors)
  6. 点击合并按钮

2. 自定义脚本

Stable Diffusion web UI支持多种自定义脚本,包括:

  • 提示词矩阵:同时测试多个提示词组合
  • X/Y/Z图表:绘制不同参数的三维图像图表
  • 彩色草图:基于草图生成彩色图像
  • 循环处理:多次运行img2img处理
  • 分层合成:将多个图像合成为一个

您可以通过在txt2img或img2img选项卡的底部脚本下拉菜单中选择这些脚本。

3. 扩展安装

通过扩展选项卡可以安装各种社区开发的扩展,增强功能:

  1. 点击"Available"选项卡
  2. 选择要安装的扩展
  3. 点击"Install"按钮
  4. 安装完成后,进入"Installed"选项卡
  5. 点击"Apply and restart UI"按钮应用更改

一些推荐的扩展:

  • 历史记录选项卡:方便地查看、直接和删除图像
  • 美学梯度:使用CLIP图像嵌入生成具有特定美学的图像
  • 额外的预处理器和训练选项:增强训练功能

4. 使用LoRA和Hypernetworks

  1. 将LoRA文件放入models/Lora目录
  2. 将Hypernetwork文件放入models/hypernetworks目录
  3. 在界面中选择要使用的模型
  4. 调整权重以控制效果强度
  5. 可以同时使用多个LoRA或Hypernetworks

常见问题解答

Q: 我的显卡只有4GB内存,可以使用Stable Diffusion web UI吗?

A: 是的,Stable Diffusion web UI支持4GB显卡(甚至有报告称2GB也能工作)。您可能需要使用--lowvram--medvram参数启动。对于低显存显卡,还可以考虑使用--xformers参数来提高性能。

重要提示:低显存用户建议同时使用--medvram --xformers参数以获得最佳性能

Q: 如何提高生成图像的质量?

A: 尝试以下方法:

  • 增加采样步数(20-30)
  • 调整CFG Scale(7-12)
  • 使用高清修复(Highres fix)
  • 尝试不同的采样器
  • 使用更好的模型
  • 使用负面提示词排除不想要的元素
  • 尝试不同的提示词结构和关键词顺序

Q: 如何保存和重用生成参数?

A: 生成图像时,参数会自动保存在图像的PNG信息块或JPEG的EXIF中。您可以将图像拖到PNG信息选项卡来恢复参数并自动复制到UI中。也可以使用"读取生成参数"按钮将参数加载到UI中。

Q: 如何更新Stable Diffusion web UI?

A: 在Windows上运行update.bat,在Linux上运行git pull。如果您使用的是发布包,请下载最新版本。

更新建议:建议定期更新以获得最新功能和安全修复,但在更新前请备份重要模型和配置

Q: 为什么我的生成速度很慢?

A: 生成速度慢可能由以下原因导致:

  • 没有使用--xformers参数(如果您的显卡支持)
  • 使用了高分辨率设置
  • 采样步数设置过高
  • 系统资源不足
  • 尝试使用--medvram--lowvram参数优化内存使用

最佳实践

1. 模型管理

  • 将模型文件放在models/Stable-diffusion目录中
  • 将VAE文件放在models/VAE目录中
  • 将LoRA文件放在models/Lora目录中
  • 将Hypernetwork文件放在models/hypernetworks目录中
  • 将Textual Inversion嵌入放在embeddings目录中
  • 定期清理不需要的模型以节省空间

2. 提示词优化

  • 从简单提示开始,逐步添加细节
  • 使用负面提示词排除不想要的元素
  • 尝试不同的提示词结构和关键词顺序
  • 保存有效的提示词以便将来使用
  • 使用注意力机制强调重要元素
  • 使用样式功能保存和应用常用的提示词组合

3. 硬件优化

  • 使用--xformers参数(支持的显卡)可显著提高速度
  • 考虑使用--medvram--lowvram参数以减少VRAM使用
  • 关闭不必要的应用程序以释放系统资源
  • 确保有足够的磁盘空间用于模型和输出图像
  • 使用SSD存储模型以提高加载速度

总结

Stable Diffusion web UI是一个功能强大、灵活且用户友好的AI图像生成工具。通过掌握其核心功能和高级技巧,您可以创建令人惊叹的AI艺术作品。关键要点包括:

  1. 了解基础功能:熟悉txt2img和img2img模式,掌握基本参数调整
  2. 学习提示词技巧:编写有效的提示词是获得高质量图像的关键
  3. 探索高级功能:尝试LoRA、Hypernetworks和自定义脚本以扩展创作可能性
  4. 优化硬件使用:根据您的系统配置调整设置以获得最佳性能

Stable Diffusion web UI为AI艺术创作提供了无限可能。通过不断实践和探索,您将能够充分发挥这一强大工具的潜力,创作出独特的数字艺术作品。

最后提醒:AI技术发展迅速,本指南基于当前版本编写。建议定期查看官方文档获取最新信息。


本文为简化版教程,如需了解更多技术细节和高级功能,请阅读原文

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐