Comfyui 教程-9
3.8 GGUF 量化模型简介
3.8.1、定义
GGUF(GPT-Generated Unified Format)是一种模型量化格式,最初由 llama.cpp 项目为大型语言模型(LLM)开发,后被社区引入到 ComfyUI 的图像生成领域。它通过降低模型权重精度(如从 FP16 转为 INT8/INT4/Q4_K_M 等),大幅减小模型体积和显存占用,使原本需要高端显卡运行的模型能在消费级甚至 CPU 环境下工作。
简单理解:GGUF 是 ComfyUI 的**“模型压缩包”**——把 23GB 的 Flux 大模型压到 4–8GB,让 6GB 显存的笔记本也能跑高质量图像生成。
3.8.2、核心原理
|
技术 |
说明 |
|
权重量化 |
将 FP32/FP16 浮点权重转换为低精度整数(INT8、INT4、Q4、Q5、Q8 等) |
|
混合精度 |
关键层用高精度,次要层用低精度,平衡质量与速度 |
|
分组量化 |
将权重分组后分别量化,减少精度损失 |
|
K-Quants 算法 |
llama.cpp 优化的量化方案(Q4_K_M、Q5_K_M 等),质量损失更小 |
量化等级示意:
|
精度 |
位数 |
体积比例 |
质量损失 |
适用场景 |
|
FP16 |
16 bit |
100% |
无 |
原生模型,质量最高 |
|
Q8_0 |
8 bit |
~50% |
极小 |
几乎无损,显存紧张时首选 |
|
Q6_K |
6 bit |
~38% |
很小 |
高质量与低显存平衡 |
|
Q5_K_M |
5 bit |
~31% |
小 |
推荐日常使用,质量损失可控 |
|
Q4_K_M |
4 bit |
~25% |
中等 |
显存极紧张时的最佳选择 |
|
Q3_K_M |
3 bit |
~19% |
较大 |
仅 CPU 运行或极限显存 |
|
Q2_K |
2 bit |
~13% |
大 |
纯实验性质,质量损失明显 |
3.8.3、GGUF 在 ComfyUI 中的应用
|
应用方向 |
说明 |
|
Flux 量化运行 |
Flux Dev(23GB)量化后 4–8GB,12GB 显存可流畅运行 |
|
SDXL 量化 |
SDXL 量化后 2–3GB,8GB 显存轻松运行 |
|
CPU 推理 |
无显卡用户通过 GGUF 在 CPU 上运行图像生成 |
|
低显存优化 |
6–8GB 显卡运行原本需要 16GB+ 的模型 |
|
多模型并发 |
同时加载多个量化模型,切换更快速 |
3.8.4、主流 GGUF 模型资源
|
模型系列 |
原始大小 |
GGUF 量化版 |
量化后大小 |
适用场景 |
|
Flux.1 Dev |
~23GB (FP16) |
flux1-dev-Q4_K_M.gguf |
~6.5GB |
高质量图像生成,12GB 显存可跑 |
|
flux1-dev-Q5_K_M.gguf |
~8GB |
质量更好,推荐 16GB 显存 |
||
|
flux1-dev-Q8_0.gguf |
~12GB |
几乎无损,需 16GB+ 显存 |
||
|
Flux.1 Schnell |
~23GB (FP16) |
flux1-schnell-Q4_K_M.gguf |
~6.5GB |
快速生成,低显存首选 |
|
Flux.1 Fill |
~23GB (FP16) |
flux1-fill-Q4_K_M.gguf |
~6.5GB |
扩图/重绘功能量化版 |
|
SDXL Base |
~6.9GB (FP16) |
sdxl-base-Q4_K_M.gguf |
~2GB |
超低显存运行 SDXL |
|
SD 1.5 |
~4GB (FP16) |
v1-5-Q4_K_M.gguf |
~1GB |
古董机也能跑 |
|
其他社区模型 |
各异 |
各类社区量化版 |
各异 |
依具体模型而定 |
3.8.5、GGUF 与 FP8/INT8 等其他量化方案对比
|
对比项 |
GGUF |
FP8 |
INT8 (TensorRT) |
FP16 原生 |
|
格式来源 |
llama.cpp 社区 |
NVIDIA 官方 |
TensorRT/ONNX |
模型原生 |
|
压缩比 |
高(可至 1/8) |
中(1/2) |
中(1/2) |
无 |
|
质量损失 |
可控(Q4_K_M 以上损失小) |
很小 |
小 |
无 |
|
显存节省 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐ |
无 |
|
速度 |
中等(CPU 友好) |
快(GPU 优化) |
很快(GPU 专用) |
基准 |
|
兼容性 |
ComfyUI + 自定义节点 |
需特定 GPU 支持 |
需 TensorRT 环境 |
通用 |
|
适用硬件 |
CPU / 低显存 GPU / 高显存 GPU |
RTX 40 系等支持 FP8 的 GPU |
NVIDIA GPU |
高显存 GPU |
|
ComfyUI 支持 |
需安装 ComfyUI-GGUF 节点 |
原生/部分支持 |
需 TensorRT 节点 |
完全支持 |
3.8.6、在 ComfyUI 中的使用
前置要求:
- 安装 ComfyUI-GGUF 自定义节点包
- 下载对应 GGUF 量化模型文件
- 下载配套的 CLIP 和 VAE 模型(GGUF 通常只量化 U-Net/Transformer 部分)
工作流结构:

关键节点(ComfyUI-GGUF 节点包提供):
|
节点 |
功能 |
|
UnetLoaderGGUF |
加载 GGUF 格式的 U-Net/Transformer 模型 |
|
ClipLoaderGGUF |
加载配套的 GGUF 格式 CLIP 模型(如有) |
|
DualClipLoaderGGUF |
Flux 双 CLIP 加载 |
|
VAELoader |
加载独立 VAE(GGUF 通常不含 VAE) |
Flux GGUF 典型工作流:

3.8.7、使用技巧与注意事项
|
技巧/注意 |
说明 |
|
Q4_K_M 是甜点 |
Q4_K_M 在体积、速度、质量间平衡最佳,推荐作为起点 |
|
质量敏感选 Q5/Q6 |
人像、商业出图等对质量要求高的场景,用 Q5_K_M 或 Q6_K |
|
Q8 几乎无损 |
显存够用时 Q8_0 几乎看不出与 FP16 的区别 |
|
避免 Q3 以下 |
Q3_K_M 及以下质量损失明显,仅应急使用 |
|
配套模型要齐全 |
GGUF 通常只量化主模型,CLIP 和 VAE 需另外下载 |
|
首次加载慢 |
GGUF 首次加载需要解压/编译,后续缓存后速度正常 |
|
CPU 模式可行 |
无显卡用户可用 GGUF + CPU 运行,速度较慢但可用 |
|
与 FP16 出图对比 |
同一提示词用 FP16 和 Q4_K_M 各跑一张,确认质量可接受后再批量使用 |
|
关注社区更新 |
GGUF 生态迭代快,新算法(如 IQ 系列)质量持续提升 |
3.8.8、模型存放路径
|
模型类型 |
存放路径 |
|
GGUF 主模型 |
ComfyUI/models/unet/ 或 ComfyUI/models/checkpoints/(依节点包配置) |
|
GGUF CLIP 模型 |
ComfyUI/models/clip/ |
|
VAE 模型 |
ComfyUI/models/vae/ |
3.8.9、下载资源
|
平台 |
地址 |
说明 |
|
Hugging Face(city96) |
huggingface.co/city96 |
Flux GGUF 量化版主要发布者 |
|
Hugging Face(lllyasviel) |
huggingface.co/lllyasviel |
官方及相关量化资源 |
|
GitHub ComfyUI-GGUF |
github.com/city96/ComfyUI-GGUF |
必装节点包,含使用说明 |
|
Civitai |
civitai.com |
社区整理的 GGUF 模型和工作流 |
|
LiblibAI |
liblib.art |
国内平台,部分 GGUF 资源 |
3.8.10、一句话总结
GGUF 量化模型是 ComfyUI 的"显存救星"——它用算法压缩让 23GB 的 Flux 大模型在 6GB 显存上流畅运行,让没有高端显卡的用户也能体验顶级 AI 绘画。虽然牺牲了一点精度,但 Q4_K_M 及以上版本的质量损失已小到肉眼难辨,是当前低显存和 CPU 用户的最优解。
更多推荐

所有评论(0)