Comfyui 教程-9

放大的EZ

67人浏览 · 2026-06-10 10:50:34

放大的EZ · 2026-06-10 10:50:34 发布

3.8 GGUF 量化模型简介

3.8.1、定义

GGUF（GPT-Generated Unified Format）是一种模型量化格式，最初由 llama.cpp 项目为大型语言模型（LLM）开发，后被社区引入到 ComfyUI 的图像生成领域。它通过降低模型权重精度（如从 FP16 转为 INT8/INT4/Q4_K_M 等），大幅减小模型体积和显存占用，使原本需要高端显卡运行的模型能在消费级甚至 CPU 环境下工作。

简单理解：GGUF 是 ComfyUI 的**“模型压缩包”**——把 23GB 的 Flux 大模型压到 4–8GB，让 6GB 显存的笔记本也能跑高质量图像生成。

3.8.2、核心原理

技术	说明
权重量化	将 FP32/FP16 浮点权重转换为低精度整数（INT8、INT4、Q4、Q5、Q8 等）
混合精度	关键层用高精度，次要层用低精度，平衡质量与速度
分组量化	将权重分组后分别量化，减少精度损失
K-Quants 算法	llama.cpp 优化的量化方案（Q4_K_M、Q5_K_M 等），质量损失更小

量化等级示意：

精度	位数	体积比例	质量损失	适用场景
FP16	16 bit	100%	无	原生模型，质量最高
Q8_0	8 bit	~50%	极小	几乎无损，显存紧张时首选
Q6_K	6 bit	~38%	很小	高质量与低显存平衡
Q5_K_M	5 bit	~31%	小	推荐日常使用，质量损失可控
Q4_K_M	4 bit	~25%	中等	显存极紧张时的最佳选择
Q3_K_M	3 bit	~19%	较大	仅 CPU 运行或极限显存
Q2_K	2 bit	~13%	大	纯实验性质，质量损失明显

3.8.3、GGUF 在 ComfyUI 中的应用

应用方向	说明
Flux 量化运行	Flux Dev（23GB）量化后 4–8GB，12GB 显存可流畅运行
SDXL 量化	SDXL 量化后 2–3GB，8GB 显存轻松运行
CPU 推理	无显卡用户通过 GGUF 在 CPU 上运行图像生成
低显存优化	6–8GB 显卡运行原本需要 16GB+ 的模型
多模型并发	同时加载多个量化模型，切换更快速

3.8.4、主流 GGUF 模型资源

模型系列	原始大小	GGUF 量化版	量化后大小	适用场景
Flux.1 Dev	~23GB (FP16)	flux1-dev-Q4_K_M.gguf	~6.5GB	高质量图像生成，12GB 显存可跑
		flux1-dev-Q5_K_M.gguf	~8GB	质量更好，推荐 16GB 显存
		flux1-dev-Q8_0.gguf	~12GB	几乎无损，需 16GB+ 显存
Flux.1 Schnell	~23GB (FP16)	flux1-schnell-Q4_K_M.gguf	~6.5GB	快速生成，低显存首选
Flux.1 Fill	~23GB (FP16)	flux1-fill-Q4_K_M.gguf	~6.5GB	扩图/重绘功能量化版
SDXL Base	~6.9GB (FP16)	sdxl-base-Q4_K_M.gguf	~2GB	超低显存运行 SDXL
SD 1.5	~4GB (FP16)	v1-5-Q4_K_M.gguf	~1GB	古董机也能跑
其他社区模型	各异	各类社区量化版	各异	依具体模型而定

3.8.5、GGUF 与 FP8/INT8 等其他量化方案对比

对比项	GGUF	FP8	INT8 (TensorRT)	FP16 原生
格式来源	llama.cpp 社区	NVIDIA 官方	TensorRT/ONNX	模型原生
压缩比	高（可至 1/8）	中（1/2）	中（1/2）	无
质量损失	可控（Q4_K_M 以上损失小）	很小	小	无
显存节省	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	无
速度	中等（CPU 友好）	快（GPU 优化）	很快（GPU 专用）	基准
兼容性	ComfyUI + 自定义节点	需特定 GPU 支持	需 TensorRT 环境	通用
适用硬件	CPU / 低显存 GPU / 高显存 GPU	RTX 40 系等支持 FP8 的 GPU	NVIDIA GPU	高显存 GPU
ComfyUI 支持	需安装 ComfyUI-GGUF 节点	原生/部分支持	需 TensorRT 节点	完全支持

3.8.6、在 ComfyUI 中的使用

前置要求：

安装 ComfyUI-GGUF 自定义节点包
下载对应 GGUF 量化模型文件
下载配套的 CLIP 和 VAE 模型（GGUF 通常只量化 U-Net/Transformer 部分）

工作流结构：

关键节点（ComfyUI-GGUF 节点包提供）：

节点	功能
UnetLoaderGGUF	加载 GGUF 格式的 U-Net/Transformer 模型
ClipLoaderGGUF	加载配套的 GGUF 格式 CLIP 模型（如有）
DualClipLoaderGGUF	Flux 双 CLIP 加载
VAELoader	加载独立 VAE（GGUF 通常不含 VAE）

Flux GGUF 典型工作流：

3.8.7、使用技巧与注意事项

技巧/注意	说明
Q4_K_M 是甜点	Q4_K_M 在体积、速度、质量间平衡最佳，推荐作为起点
质量敏感选 Q5/Q6	人像、商业出图等对质量要求高的场景，用 Q5_K_M 或 Q6_K
Q8 几乎无损	显存够用时 Q8_0 几乎看不出与 FP16 的区别
避免 Q3 以下	Q3_K_M 及以下质量损失明显，仅应急使用
配套模型要齐全	GGUF 通常只量化主模型，CLIP 和 VAE 需另外下载
首次加载慢	GGUF 首次加载需要解压/编译，后续缓存后速度正常
CPU 模式可行	无显卡用户可用 GGUF + CPU 运行，速度较慢但可用
与 FP16 出图对比	同一提示词用 FP16 和 Q4_K_M 各跑一张，确认质量可接受后再批量使用
关注社区更新	GGUF 生态迭代快，新算法（如 IQ 系列）质量持续提升

3.8.8、模型存放路径

模型类型	存放路径
GGUF 主模型	ComfyUI/models/unet/ 或 ComfyUI/models/checkpoints/（依节点包配置）
GGUF CLIP 模型	ComfyUI/models/clip/
VAE 模型	ComfyUI/models/vae/

3.8.9、下载资源

平台	地址	说明
Hugging Face（city96）	huggingface.co/city96	Flux GGUF 量化版主要发布者
Hugging Face（lllyasviel）	huggingface.co/lllyasviel	官方及相关量化资源
GitHub ComfyUI-GGUF	github.com/city96/ComfyUI-GGUF	必装节点包，含使用说明
Civitai	civitai.com	社区整理的 GGUF 模型和工作流
LiblibAI	liblib.art	国内平台，部分 GGUF 资源

3.8.10、一句话总结

GGUF 量化模型是 ComfyUI 的"显存救星"——它用算法压缩让 23GB 的 Flux 大模型在 6GB 显存上流畅运行，让没有高端显卡的用户也能体验顶级 AI 绘画。虽然牺牲了一点精度，但 Q4_K_M 及以上版本的质量损失已小到肉眼难辨，是当前低显存和 CPU 用户的最优解。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

【小白也能轻松用】个人办公AI搭建，OpenClaw零基础零代码快速部署（含最新安装包）

智能体开发者社区

别再手动编译了，用 Docker 在 Instinct GPU 上三分钟跑通 vLLM

本文详解如何利用 Docker 在 AMD Instinct GPU 上三分钟快速部署 vLLM。借助 ROCm 7.x 官方预构建镜像，开发者可彻底告别手动编译地狱，轻松实现 Llama 3.1 等模型的高效推理。文章涵盖 BF16/FP8 精度配置及性能实测，助您大幅降低环境配置成本，加速大模型服务上线。