一键加载GGUF！OpenVINO™ GenAI让大模型推理更快更轻

让我们一起看看如何通过 OpenVINO™ GenAI 快速运行 GGUF 模型推理！

OpenVINO 中文社区

996人浏览 · 2025-10-13 17:43:32

OpenVINO 中文社区 · 2025-10-13 17:43:32 发布

作者：武卓，AI软件布道师；杨粟， AI软件解决方案工程师；陈天萌，AI软件解决方案工程师

引言

大语言模型（LLM）正日益被优化，以适应本地端和边缘设备的部署。在众多轻量化推理格式中，GGUF（General Graph Unified Format，通用图统一格式）是最受欢迎的格式之一。它由 llama.cpp 社区提出，用于高效存储量化后的模型权重，以实现快速的 CPU 和 GPU 推理。

与传统的 PyTorch 或 ONNX 格式不同，GGUF 专为运行时效率而设计。它将模型张量以紧凑的二进制结构存储，支持内存映射（memory mapping）与低延迟加载。这使得它成为社区驱动模型的首选格式，尤其适用于在 AI PC 上进行本地、离线推理的场景。

然而，虽然 GGUF 模型可以在 llama.cpp 中无缝运行，但过去若要在英特尔硬件上加速推理，仍需先将 PyTorch 模型离线转换为 OpenVINO™ IR 格式（参考工具 GGUF-to-OpenVINO：https://github.com/yangsu2022/GGUF-to-OpenVINO）。

有了最新的 OpenVINO™ 2025.3 版本，这一情况发生了改变。

开发者现在可以直接加载 GGUF 模型，即时创建 OpenVINO™ 计算图，并在 CPU/GPU 上进行推理。这一新的 GGUF Reader 功能构建了社区模型与 OpenVINO™ 优化运行时之间的桥梁，实现了跨 CPU 与 GPU 的统一工作流。

目前，OpenVINO™ GenAI 2025.3 已支持部分 GGUF 量化类型（Q4_0、Q4_K_M、Q8_0、FP16），并可在 CPU 与 GPU 上运行。该功能目前为预览版，支持的模型拓扑包括 SmolLM、Qwen2.5、Qwen3 以及 Llama-3.1 / 3.2。

对于其他模型或架构，建议仍通过 huggingface/OpenVINO/llm 下载官方 IR 模型，或使用 optimum-intel 工具将 PyTorch 模型转换为 IR 格式。详情请参考 Generative Model Preparation Using Optimum-intel （Generative Model Preparation Using Optimum-intel）。

接下来，让我们一起看看如何通过 OpenVINO™ GenAI 快速运行 GGUF 模型推理！

1. 工作流概览

2. 分步教程
- 安装 OpenVINO™ GenAI
- 使用 LLMPipeline 加载 GGUF 模型
- 生成文本
- 保存转换后的模型以便重用

3. 总结

1. 工作流概览

新的 GGUF Reader 工作流非常简单，如下图所示：

核心特性：

一键加载：在单个 API 调用中，直接读取、解包并转换 GGUF 压缩张量为 OpenVINO™ 格式。
即时图构建：无需中间 PyTorch 模型，免去使用 optimum-cli 进行离线转换的步骤。
集成反量化（Dequantization）：在推理过程中自动执行反量化，省去额外存储和预处理。
依赖简化：不再依赖 PyTorch 或 Optimum。
模型保存：可将生成的 ov::Model 序列化为 IR 格式，以便下次更快构建 LLMPipeline。

2. 分步教程

第一步：安装 OpenVINO™ GenAI

确保已安装最新版的 OpenVINO™ GenAI（2025.3），可使用以下命令：

pip install openvino-genai

第二步：使用 OpenVINO™ GenAI 加载 GGUF 模型

要使用 GGUF 模型执行推理，只需在创建 LLMPipeline 对象时提供 .gguf 文件路径：

import openvino_genai pipe = openvino_genai.LLMPipeline("SmolLM2-135M.F16.gguf", "CPU")

第三步：生成文本

config = openvino_genai.GenerationConfig()config.max_new_tokens = 100pipe.generate("The Sun is yellow because", config)

第四步：保存转换后的模型以便重用

为加快后续加载速度，可启用模型序列化：

pipe.enable_save_ov_model = Trueoutput = pipe.generate("Once upon a time", config)

这会在同目录下生成以下 OpenVINO™ IR 文件：

SmolLM2-135M.F16.xmlSmolLM2-135M.F16.bin

之后即可直接加载这些 IR 文件：

pipe = ov_genai.LLMPipeline("SmolLM2-135M.F16.xml", "GPU")

进阶用法（视频示例中演示）

enable_save_ov_model 属性会将从 GGUF 文件生成的 OV 模型（包含 tokenizer）序列化为 XML/BIN 文件。
示例视频演示了两种运行方式：

1. 直接输入 GGUF 文件；

2. 输入转换后生成的 OV 模型路径。

可通过设置环境变量 OPENVINO_LOG_LEVEL 查看加载和序列化时间。

示例代码请参考官方博客：OpenVINO™ Blog | OpenVINO™ GenAI GGUF Feature Update。

总结

通过 OpenVINO™ GenAI 2025.3 新增的 GGUF Reader，开发者可以轻松在英特尔硬件上运行社区量化的 LLM 模型，打通从 GGUF 到高效推理的完整路径。

无论你是在测试轻量级模型 SmolLM，还是部署更复杂的 Qwen 与 Llama 系列，OpenVINO™ 都能提供：

更简洁的工作流
更快的模型加载
一致的 CPU / GPU 推理体验

这一特性标志着 AI PC 无缝模型部署 迈出了重要一步，将开源社区的灵活性与英特尔的优化能力完美融合。

延伸阅读

OpenVINO™ Blog | OpenVINO™ GenAI 支持 GGUF 模型

OpenVINO™ Blog | OpenVINO™ GenAI GGUF 功能更新

相关资源

OpenVINO™ GenAI 官方文档
OpenVIN™ Notebooks 示例
反馈与问题提交

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大