在这里插入图片描述

📖标题:Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models
🌐来源:arXiv, 2504.07807

🌟摘要

🔸混合专家(MoE)架构已成为一种有前景的范式,用于通过稀疏激活特定任务的专家来扩展大型语言模型(LLM)。尽管在推理过程中计算效率很高,但MoE模型(如GPT-4)的大量总体参数足迹为实际部署带来了关键挑战。目前的修剪方法往往无法解决MoE系统的两个固有特征:1)层内专家同质性,即同一MoE层内的专家表现出功能冗余,2)层间相似性模式,其中较深层往往包含越来越同质的专家。
🔸为了解决这些问题,我们提出了集群驱动的专家修剪(C-PRONE),这是一种新的两阶段框架,用于MoE LLM的自适应任务特定压缩。C-PRONE通过分层专家聚类进行操作,该聚类使用参数相似性度量将每个MoE层内功能相似的专家分组,然后进行全局聚类修剪,通过考虑跨层同质性的统一重要性评分机制消除所有层中的冗余聚类。
🔸我们通过在多个MoE模型和基准上进行广泛的实验来验证CPRUNE。结果表明,C-PRONE有效地减小了模型大小,同时优于现有的MoE修剪方法

🛎️文章简介

🔸研究问题:如何解决Mixture-of-Experts (MoE) 大语言模型(LLM)中的专家剪枝问题,以提高模型的效率和性能?
🔸主要贡献:论文提出了一种基于聚类的专家剪枝方法(C-PRUNE),有效减少了参数数量,同时保持了模型的任务特异性功能。

📝重点思路

🔸采用分层聚类方法,对功能相似的专家进行聚类,从而降低层内冗余。
🔸进行全局优化,跨层修剪冗余聚类,同时保持深度特定的功能。
🔸利用动态剪枝算法,结合专家嵌入的谱分析来适应性地合并专家。
🔸在剪枝后更新路由策略,以确保模型在剪枝后的性能稳定。

🔎分析总结

🔸实验结果显示,C-PRUNE在多个MoE变体和基准测试中实现了25-35%的参数减少,而性能仅轻微下降(如MMLU分数下降1.4%)。
🔸任务特定的剪枝方法明显优于任务无关的方法,尤其是在计算机科学等技术领域,表现出更好的性能保留。
🔸研究发现,不同学科对剪枝策略的响应差异,表明知识组织在模型中因主题而异,技术知识更具层特性。
🔸最优剪枝配置发现,全球比例在0.1-0.2之间,层内比例约为0.2,能有效压缩模型而不显著损失性能。

💡个人观点

论文的创新点在于提出了结合层内和层间冗余的系统性剪枝框架,通过聚类分析实现了有效的专家修剪,克服了传统剪枝方法的局限性。

🧩附录

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐