3.8 GGUF 量化模型简介

3.8.1、定义

GGUF(GPT-Generated Unified Format)是一种模型量化格式,最初由 llama.cpp 项目为大型语言模型(LLM)开发,后被社区引入到 ComfyUI 的图像生成领域。它通过降低模型权重精度(如从 FP16 转为 INT8/INT4/Q4_K_M 等),大幅减小模型体积和显存占用,使原本需要高端显卡运行的模型能在消费级甚至 CPU 环境下工作。

简单理解:GGUF 是 ComfyUI 的**“模型压缩包”**——把 23GB 的 Flux 大模型压到 4–8GB,让 6GB 显存的笔记本也能跑高质量图像生成。

3.8.2、核心原理

技术

说明

权重量化

将 FP32/FP16 浮点权重转换为低精度整数(INT8、INT4、Q4、Q5、Q8 等)

混合精度

关键层用高精度,次要层用低精度,平衡质量与速度

分组量化

将权重分组后分别量化,减少精度损失

K-Quants 算法

llama.cpp 优化的量化方案(Q4_K_M、Q5_K_M 等),质量损失更小

量化等级示意

精度

位数

体积比例

质量损失

适用场景

FP16

16 bit

100%

原生模型,质量最高

Q8_0

8 bit

~50%

极小

几乎无损,显存紧张时首选

Q6_K

6 bit

~38%

很小

高质量与低显存平衡

Q5_K_M

5 bit

~31%

推荐日常使用,质量损失可控

Q4_K_M

4 bit

~25%

中等

显存极紧张时的最佳选择

Q3_K_M

3 bit

~19%

较大

仅 CPU 运行或极限显存

Q2_K

2 bit

~13%

纯实验性质,质量损失明显

3.8.3、GGUF 在 ComfyUI 中的应用

应用方向

说明

Flux 量化运行

Flux Dev(23GB)量化后 4–8GB,12GB 显存可流畅运行

SDXL 量化

SDXL 量化后 2–3GB,8GB 显存轻松运行

CPU 推理

无显卡用户通过 GGUF 在 CPU 上运行图像生成

低显存优化

6–8GB 显卡运行原本需要 16GB+ 的模型

多模型并发

同时加载多个量化模型,切换更快速

3.8.4、主流 GGUF 模型资源

模型系列

原始大小

GGUF 量化版

量化后大小

适用场景

Flux.1 Dev

~23GB (FP16)

flux1-dev-Q4_K_M.gguf

~6.5GB

高质量图像生成,12GB 显存可跑

flux1-dev-Q5_K_M.gguf

~8GB

质量更好,推荐 16GB 显存

flux1-dev-Q8_0.gguf

~12GB

几乎无损,需 16GB+ 显存

Flux.1 Schnell

~23GB (FP16)

flux1-schnell-Q4_K_M.gguf

~6.5GB

快速生成,低显存首选

Flux.1 Fill

~23GB (FP16)

flux1-fill-Q4_K_M.gguf

~6.5GB

扩图/重绘功能量化版

SDXL Base

~6.9GB (FP16)

sdxl-base-Q4_K_M.gguf

~2GB

超低显存运行 SDXL

SD 1.5

~4GB (FP16)

v1-5-Q4_K_M.gguf

~1GB

古董机也能跑

其他社区模型

各异

各类社区量化版

各异

依具体模型而定

3.8.5、GGUF 与 FP8/INT8 等其他量化方案对比

对比项

GGUF

FP8

INT8 (TensorRT)

FP16 原生

格式来源

llama.cpp 社区

NVIDIA 官方

TensorRT/ONNX

模型原生

压缩比

高(可至 1/8)

中(1/2)

中(1/2)

质量损失

可控(Q4_K_M 以上损失小)

很小

显存节省

⭐⭐⭐⭐⭐

⭐⭐⭐

⭐⭐⭐

速度

中等(CPU 友好)

快(GPU 优化)

很快(GPU 专用)

基准

兼容性

ComfyUI + 自定义节点

需特定 GPU 支持

需 TensorRT 环境

通用

适用硬件

CPU / 低显存 GPU / 高显存 GPU

RTX 40 系等支持 FP8 的 GPU

NVIDIA GPU

高显存 GPU

ComfyUI 支持

需安装 ComfyUI-GGUF 节点

原生/部分支持

需 TensorRT 节点

完全支持

3.8.6、在 ComfyUI 中的使用

前置要求

  1. 安装 ComfyUI-GGUF 自定义节点包
  2. 下载对应 GGUF 量化模型文件
  3. 下载配套的 CLIP 和 VAE 模型(GGUF 通常只量化 U-Net/Transformer 部分)

工作流结构

关键节点(ComfyUI-GGUF 节点包提供):

节点

功能

UnetLoaderGGUF

加载 GGUF 格式的 U-Net/Transformer 模型

ClipLoaderGGUF

加载配套的 GGUF 格式 CLIP 模型(如有)

DualClipLoaderGGUF

Flux 双 CLIP 加载

VAELoader

加载独立 VAE(GGUF 通常不含 VAE)

Flux GGUF 典型工作流

3.8.7、使用技巧与注意事项

技巧/注意

说明

Q4_K_M 是甜点

Q4_K_M 在体积、速度、质量间平衡最佳,推荐作为起点

质量敏感选 Q5/Q6

人像、商业出图等对质量要求高的场景,用 Q5_K_M 或 Q6_K

Q8 几乎无损

显存够用时 Q8_0 几乎看不出与 FP16 的区别

避免 Q3 以下

Q3_K_M 及以下质量损失明显,仅应急使用

配套模型要齐全

GGUF 通常只量化主模型,CLIP 和 VAE 需另外下载

首次加载慢

GGUF 首次加载需要解压/编译,后续缓存后速度正常

CPU 模式可行

无显卡用户可用 GGUF + CPU 运行,速度较慢但可用

与 FP16 出图对比

同一提示词用 FP16 和 Q4_K_M 各跑一张,确认质量可接受后再批量使用

关注社区更新

GGUF 生态迭代快,新算法(如 IQ 系列)质量持续提升

3.8.8、模型存放路径

模型类型

存放路径

GGUF 主模型

ComfyUI/models/unet/ 或 ComfyUI/models/checkpoints/(依节点包配置)

GGUF CLIP 模型

ComfyUI/models/clip/

VAE 模型

ComfyUI/models/vae/

3.8.9、下载资源

平台

地址

说明

Hugging Face(city96)

huggingface.co/city96

Flux GGUF 量化版主要发布者

Hugging Face(lllyasviel)

huggingface.co/lllyasviel

官方及相关量化资源

GitHub ComfyUI-GGUF

github.com/city96/ComfyUI-GGUF

必装节点包,含使用说明

Civitai

civitai.com

社区整理的 GGUF 模型和工作流

LiblibAI

liblib.art

国内平台,部分 GGUF 资源

3.8.10、一句话总结

GGUF 量化模型是 ComfyUI 的"显存救星"——它用算法压缩让 23GB 的 Flux 大模型在 6GB 显存上流畅运行,让没有高端显卡的用户也能体验顶级 AI 绘画。虽然牺牲了一点精度,但 Q4_K_M 及以上版本的质量损失已小到肉眼难辨,是当前低显存和 CPU 用户的最优解。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐