北航：LLM基于聚类的专家剪枝

如何解决Mixture-of-Experts (MoE) 大语言模型（LLM）中的专家剪枝问题，以提高模型的效率和性能？论文提出了一种基于聚类的专家剪枝方法（C-PRUNE），有效减少了参数数量，同时保持了模型的任务特异性功能。

大模型任我行

1067人浏览 · 2025-04-21 10:00:00

大模型任我行 · 2025-04-21 10:00:00 发布

在这里插入图片描述

📖标题：Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models
🌐来源：arXiv, 2504.07807

🌟摘要

🔸混合专家（MoE）架构已成为一种有前景的范式，用于通过稀疏激活特定任务的专家来扩展大型语言模型（LLM）。尽管在推理过程中计算效率很高，但MoE模型（如GPT-4）的大量总体参数足迹为实际部署带来了关键挑战。目前的修剪方法往往无法解决MoE系统的两个固有特征：1）层内专家同质性，即同一MoE层内的专家表现出功能冗余，2）层间相似性模式，其中较深层往往包含越来越同质的专家。
🔸为了解决这些问题，我们提出了集群驱动的专家修剪（C-PRONE），这是一种新的两阶段框架，用于MoE LLM的自适应任务特定压缩。C-PRONE通过分层专家聚类进行操作，该聚类使用参数相似性度量将每个MoE层内功能相似的专家分组，然后进行全局聚类修剪，通过考虑跨层同质性的统一重要性评分机制消除所有层中的冗余聚类。
🔸我们通过在多个MoE模型和基准上进行广泛的实验来验证CPRUNE。结果表明，C-PRONE有效地减小了模型大小，同时优于现有的MoE修剪方法

🛎️文章简介

🔸研究问题：如何解决Mixture-of-Experts (MoE) 大语言模型（LLM）中的专家剪枝问题，以提高模型的效率和性能？
🔸主要贡献：论文提出了一种基于聚类的专家剪枝方法（C-PRUNE），有效减少了参数数量，同时保持了模型的任务特异性功能。

📝重点思路

🔸采用分层聚类方法，对功能相似的专家进行聚类，从而降低层内冗余。
🔸进行全局优化，跨层修剪冗余聚类，同时保持深度特定的功能。
🔸利用动态剪枝算法，结合专家嵌入的谱分析来适应性地合并专家。
🔸在剪枝后更新路由策略，以确保模型在剪枝后的性能稳定。

🔎分析总结

🔸实验结果显示，C-PRUNE在多个MoE变体和基准测试中实现了25-35%的参数减少，而性能仅轻微下降（如MMLU分数下降1.4%）。
🔸任务特定的剪枝方法明显优于任务无关的方法，尤其是在计算机科学等技术领域，表现出更好的性能保留。
🔸研究发现，不同学科对剪枝策略的响应差异，表明知识组织在模型中因主题而异，技术知识更具层特性。
🔸最优剪枝配置发现，全球比例在0.1-0.2之间，层内比例约为0.2，能有效压缩模型而不显著损失性能。

💡个人观点

论文的创新点在于提出了结合层内和层间冗余的系统性剪枝框架，通过聚类分析实现了有效的专家修剪，克服了传统剪枝方法的局限性。

🧩附录

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla