在Qwen3项目中使用llama.cpp本地运行大语言模型

在Qwen3项目中使用llama.cpp本地运行大语言模型【免费下载链接】Qwen3通义千问 Qwen3，包含多个参数规模的密集模型（Dense）与混合专家模型（MoE），推理能力显著提升项目地址: https://gitc...

卓炯娓

1533人浏览 · 2025-06-01 09:14:54

卓炯娓 · 2025-06-01 09:14:54 发布

在Qwen3项目中使用llama.cpp本地运行大语言模型

【免费下载链接】Qwen3 通义千问 Qwen3，包含多个参数规模的密集模型（Dense）与混合专家模型（MoE），推理能力显著提升项目地址: https://gitcode.com/gh_mirrors/qw/Qwen3

前言

对于希望在本地运行大语言模型的开发者来说，llama.cpp是一个非常值得关注的解决方案。本文将详细介绍如何在Qwen3项目中使用llama.cpp来运行Qwen3系列模型，包括从获取程序、准备模型到实际运行的完整流程。

llama.cpp简介

llama.cpp是一个基于C/C++的大语言模型推理框架，具有以下显著特点：

轻量级设计：纯C/C++实现，无外部依赖
跨平台支持：支持Windows、Linux和macOS系统
硬件兼容性广：
- CPU支持：x86_64的AVX/AVX2/AVX512指令集优化
- GPU支持：NVIDIA(CUDA)、AMD(hipBLAS)、Intel(SYCL)、Ascend NPU(CANN)等
多种量化方案：支持多种量化方法以降低内存占用
混合推理：支持CPU+GPU混合推理，可运行超过显存容量的模型

与Python框架相比，llama.cpp作为编译型语言实现，具有更低的运行时开销和更高的执行效率。

获取llama.cpp程序

有三种主要方式获取llama.cpp的可执行程序：

1. 本地编译（推荐）

本地编译可以获得最佳的硬件优化效果。基本步骤如下：

安装编译工具链：
- macOS: xcode-select --install
- Ubuntu: sudo apt install build-essential
克隆仓库并编译：

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release -j 8

编译完成后，程序位于./build/bin/目录下。

2. 使用包管理器

macOS用户可通过Homebrew安装：

brew install llama.cpp

注意：预编译二进制文件可能未针对您的硬件进行优化。

3. 下载预编译二进制

可从发布页面下载对应平台的预编译版本，文件名格式为： llama-<版本>-bin-<系统>-<特性>-<架构>.zip

选择时需注意：

系统：win/macos/linux
架构：x64/arm64
特性：根据CPU/GPU类型选择

准备GGUF模型文件

GGUF(GPT-Generated Unified Format)是llama.cpp使用的模型文件格式，包含模型权重、超参数和分词器等信息。

获取官方Qwen3 GGUF模型

可通过以下命令下载官方提供的GGUF模型：

huggingface-cli download Qwen/Qwen3-8B-GGUF qwen3-8b-q4_k_m.gguf --local-dir .

自行转换GGUF文件

如需自定义量化，可使用转换脚本：

python convert-hf-to-gguf.py Qwen/Qwen3-8B --outfile qwen3-8b-f16.gguf

运行Qwen3模型

使用llama-cli交互

基本命令格式：

./llama-cli -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 -c 40960 -n 32768 --no-context-shift

关键参数说明：

模型加载：
- -hf：从Hugging Face Hub加载
- -m：加载本地模型文件
- -mu：从URL加载模型
性能优化：
- -t：设置CPU线程数
- -ngl：GPU加速层数
- -dev：指定GPU设备
- -sm：设置并行模式
生成控制：
- --temp：温度参数
- --top-k/--top-p：采样参数
- --presence-penalty：重复惩罚
上下文管理：
- -c：最大上下文长度
- -n：最大生成长度
- --no-context-shift：禁用上下文轮转

使用llama-server服务

启动命令与llama-cli类似，额外支持：

--reasoning-format：指定推理格式
--host/--port：自定义服务地址

默认提供：

Web界面：http://localhost:8080/
OpenAI兼容API：http://localhost:8080/v1/

注意事项

从b5092版本开始，llama.cpp正式支持Qwen3和Qwen3MoE模型
如需禁用思考模式，可通过--chat-template-file指定自定义模板

对于长上下文，可启用YaRN扩展：

-c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

结语

通过llama.cpp，开发者可以在各种硬件环境下高效运行Qwen3系列模型。无论是用于本地开发测试，还是构建生产级应用，llama.cpp都提供了一个强大而灵活的解决方案。对于不熟悉命令行操作的用户，也可以考虑使用基于llama.cpp构建的图形界面工具如Ollama或LM Studio。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla