告别大模型训练困境：MLX框架下LoRA微调与GGUF部署全流程

还在为大模型微调的显存占用发愁？想让训练好的模型在本地高效运行却不知如何下手？本文将带你通过MLX框架的LoRA（Low-Rank Adaptation，低秩适应）技术实现高效微调，并将模型导出为GGUF（Generalized GGML Universal Format，通用GGML格式）实现跨平台部署。读完本文你将掌握：- 用LoRA/QLoRA在消费级设备上微调大模型- 融合适配器权重生..

柯爽莹

575人浏览 · 2025-09-10 22:50:34

柯爽莹 · 2025-09-10 22:50:34 发布

告别大模型训练困境：MLX框架下LoRA微调与GGUF部署全流程

【免费下载链接】mlx-examples 在 MLX 框架中的示例。项目地址: https://gitcode.com/GitHub_Trending/ml/mlx-examples

用LoRA/QLoRA在消费级设备上微调大模型
融合适配器权重生成完整模型
导出GGUF格式实现本地快速部署
解决训练中的显存不足问题

技术原理与项目结构

MLX是苹果推出的机器学习框架，专为Apple Silicon优化。本教程基于mlx-examples项目实现，核心涉及两个关键模块：

LoRA微调模块

LoRA示例代码提供了完整的低秩适应微调实现，支持量化LoRA（QLoRA）技术，通过冻结预训练模型权重，仅训练少量适配器参数来降低显存需求。关键文件包括：

lora.py：核心训练逻辑
fuse.py：适配器权重融合工具
data/：训练数据格式示例

GGUF导出模块

GGUF_LLM示例实现了GGUF格式的模型加载与推理，支持Q4_0、Q4_1和Q8_0等量化格式。关键文件包括：

generate.py：GGUF模型推理脚本
models.py：模型加载与量化实现

环境准备与依赖安装

基础环境配置

首先克隆项目仓库并进入工作目录：

git clone https://gitcode.com/GitHub_Trending/ml/mlx-examples
cd GitHub_Trending/ml/mlx-examples

安装依赖包

分别安装LoRA和GGUF模块的依赖：

# 安装LoRA模块依赖
cd lora && pip install -r requirements.txt && cd ..

# 安装GGUF模块依赖
cd llms/gguf_llm && pip install -r requirements.txt && cd ../..

LoRA/QLoRA模型微调

模型转换（可选）

如需使用量化LoRA（QLoRA），需先将Hugging Face模型转换为MLX格式并量化：

cd lora
python convert.py --hf-path mistralai/Mistral-7B-v0.1 -q

该命令会将Mistral-7B模型转换为4位量化的MLX格式，保存至mlx_model/目录。

开始微调训练

使用WikiSQL数据集训练文本转SQL能力，默认参数下运行：

python lora.py --model mlx_model/ --train --iters 600

普通LoRA：使用未量化模型时自动启用
QLoRA：使用-q参数转换的量化模型时自动启用

训练过程中，适配器权重默认保存为adapters.npz。可通过--adapter-file指定保存路径，通过--resume-adapter-file恢复训练。

显存优化方案

针对不同硬件配置，可通过以下参数组合优化显存占用：

硬件配置	推荐参数组合	预期性能
M2 Ultra (24GB)	`--batch-size 4 --lora-layers 16`	475 tokens/秒
M1 Max (32GB)	`--batch-size 1 --lora-layers 4`	250 tokens/秒
8GB内存设备	`--batch-size 1 --lora-layers 2 --quantize`	120 tokens/秒

模型评估与推理

计算测试集困惑度

python lora.py --model mlx_model/ --adapter-file adapters.npz --test

WikiSQL数据集上的典型结果如下：

迭代次数	训练损失	验证损失
1	N/A	2.659
200	1.264	1.405
600	1.123	1.274
1000	1.070	1.230

生成SQL查询示例

python lora.py --model mlx_model/ \
               --adapter-file adapters.npz \
               --max-tokens 50 \
               --prompt "table: 1-10015132-16
columns: Player, No., Nationality, Position, Years in Toronto, School/Club Team
Q: What is terrence ross' nationality
A: "

适配器融合与GGUF导出

融合适配器权重

使用fuse.py将训练好的适配器权重与基础模型融合：

python fuse.py --model mlx_model/ \
               --adapter-file adapters.npz \
               --output lora_fused_model

融合后的完整模型保存在lora_fused_model/目录。

转换为GGUF格式

目前MLX框架暂不直接支持GGUF导出，需通过以下间接方式实现：

将融合后的模型转换为PyTorch格式（需自行实现转换脚本）
使用llama.cpp的转换工具转为GGUF：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
python convert.py /path/to/lora_fused_model --outfile model.gguf --quantize q4_0

本地部署与推理优化

使用GGUF模型推理

通过llms/gguf_llm/generate.py加载GGUF模型进行推理：

cd llms/gguf_llm
python generate.py \
  --repo /path/to/gguf_model \
  --gguf model.gguf \
  --prompt "Write a SQL query to find the top 10 highest scoring players"

支持的量化格式与性能对比

MLX的GGUF加载器支持以下量化格式，不同格式在M2 Ultra上的性能测试结果：

量化格式	模型大小	推理速度	质量损失
Q8_0	原始大小80%	180 tokens/秒	极小
Q4_0	原始大小40%	250 tokens/秒	轻微
Q4_1	原始大小45%	230 tokens/秒	极小

高级应用与自定义数据集

使用自定义数据集

准备符合格式要求的训练数据，放置在自定义目录并指定--data参数：

python lora.py --model mlx_model/ \
               --train \
               --data my_custom_data/ \
               --iters 1000

数据格式参考lora/data/目录下的JSONL文件，每条训练样本格式为：

{"text": "这是一条训练样本"}

解决常见问题

显存不足问题

降低批处理大小：--batch-size 1（默认值为4）
减少LoRA层数：--lora-layers 4（默认值为16）
使用量化模型：通过convert.py -q生成4位量化模型
缩短序列长度：预处理时拆分长文本

模型质量优化

增加训练迭代：--iters 2000（根据验证损失调整）
使用学习率调度：--lr 1e-4 --warmup-iters 100
数据增强：对训练文本进行随机截断和重组

总结与未来展望

本文详细介绍了在MLX框架中使用LoRA/QLoRA微调大模型并导出GGUF格式的完整流程。通过这种方式，开发者可以在消费级Apple Silicon设备上完成大模型微调，并导出为通用格式实现跨平台部署。未来MLX将原生支持GGUF导出，进一步简化部署流程。

推荐继续探索以下资源深入学习：

如果你在实践中遇到问题或有优化建议，欢迎通过项目贡献指南参与社区讨论。

【免费下载链接】mlx-examples 在 MLX 框架中的示例。项目地址: https://gitcode.com/GitHub_Trending/ml/mlx-examples

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla