【文献阅读】A review of state-of-the-art techniques for large language model compression

摘要：大型语言模型（LLMs）的快速发展推动了自然语言处理领域的重大进步，但其大规模部署仍面临计算、内存和能效等挑战。本文系统综述了剪枝、量化、知识蒸馏和神经架构搜索（NAS）等最先进的压缩技术，这些技术可有效减小模型规模、提高推理速度并降低能耗。研究提出了一个整合传统指标（如准确率和困惑度）与高级标准（延迟-准确率权衡、参数效率、多目标优化等）的评估框架，并探讨了公平感知压缩、对抗性鲁棒性和硬件

Toky丶

1387人浏览 · 2025-08-22 15:26:13

Toky丶 · 2025-08-22 15:26:13 发布

Complex & Intelligent Systems (2025) 11:407

摘要

大型语言模型（LLMs）的快速发展推动了自然语言处理（NLP）及相关领域的重大进步。然而，其部署仍受限于计算、内存和能效方面的挑战，尤其是在实际应用中。本文全面综述了最先进的压缩技术，包括剪枝、量化、知识蒸馏和神经架构搜索（NAS），这些技术共同致力于减小模型规模、提高推理速度、降低能耗，同时保持性能。文中引入了一个稳健的评估框架，整合了传统指标（如准确率和困惑度（PPL））以及高级标准（包括延迟 - 准确率权衡、参数效率、多目标帕累托优化和公平性考量）。本研究进一步强调了趋势和挑战，如公平感知压缩、对抗性攻击鲁棒性和硬件特定优化。此外，探讨了 NAS 驱动的策略，将其作为设计任务感知、硬件自适应架构的手段，以提高 LLM 压缩效率。还研究了混合和自适应方法，以在不同部署场景中动态优化计算效率。本文不仅综合了最新进展并识别了开放问题，还提出了结构化研究路线图，以指导高效、可扩展和公平的 LLMs 的发展。通过弥合压缩研究与实际部署之间的差距，本研究为在移动设备和大规模云基础设施等多种环境中优化 LLMs 提供了可操作的见解。

关键词

大型语言模型压缩・知识蒸馏・量化・剪枝技术・神经架构搜索・资源受限环境・可扩展 AI 系统・AI 模型公平性・对抗性攻击鲁棒性・边缘计算・自适应压缩・多目标优化

引言

大型语言模型（LLMs）的发展，如双向编码器表征来自 Transformer（BERT）[1]、生成预训练 Transformer（GPT）[2] 及其变体，彻底改变了自然语言处理（NLP），推动了情感分析和问答等任务的进步。这些拥有数十亿参数的深度神经网络（DNNs）具有高准确率和泛化能力 [3,4]。然而，其性能需求大量计算和内存资源，限制了在移动设备和嵌入式系统等环境中的使用 [5-7]。这凸显了优化性能和效率的模型压缩技术的迫切需求。

模型压缩降低了 LLMs 的计算和内存需求，同时保持其预测准确率 [2,4,8]。剪枝、量化、知识蒸馏和神经架构搜索（NAS）等技术通常用于此目的 [9-12]。每种方法都提供独特的优化策略，但都涉及效率和准确率之间的权衡。这些挑战在实时应用中尤为关键，其中延迟、能耗和内存是关键因素 [13-15]。

LLM 压缩方法的历史背景与实际应用

模型压缩技术的历史演进表明，在机器学习（ML）中优化计算效率的努力由来已久。研究人员不断寻求创新方法，以减小模型的规模和复杂度，同时保持甚至提高其性能。从早期的剪枝和量化方法，到最近的知识蒸馏和 NAS 进展，该领域在平衡模型效率和准确率方面取得了显著进步。这些努力源于在资源受限设备（如移动电话、嵌入式系统和边缘计算平台）上部署 ML 模型的需求日益增长。

剪枝通过移除 DNNs 中不太重要的连接或神经元来实现压缩，最早在 20 世纪 80 年代被探索。早期研究如《最优脑损伤》[16] 和《最优脑外科医生》[17] 引入了基于二阶导数的方法来识别和移除冗余参数。2010 年代，现代基于幅度的剪枝得以发展，表明迭代权重剪枝可以显著减小模型规模，同时保持准确率 [18]。最近，动态剪枝被探索用于根据输入复杂度自适应调整模型稀疏性，进一步提高实际应用中的效率 [19]。

自 2010 年代末以来，图神经网络（GNNs）在模型压缩研究中受到极大关注，因为它们能够高效处理非欧几里得数据结构 [20,21]。2020 年代初的最新研究探索了专为 GNNs 设计的剪枝和量化技术，确保在保持关键结构信息的同时实现可扩展性 [22-24]。

量化源自信号处理，通过将 DNN 参数的精度降低到低位宽表示，减少计算负载和内存使用。关于该主题的早期研究可追溯至 20 世纪 90 年代 [25,26]。2010 年代，研究重点转向硬件优化以加速处理速度 [27]。随后，人们认识到软件优化和模型压缩技术（包括量化）可以减少不必要的参数和计算，同时保持可接受的准确率 [28-30]。二进制和三进制量化方法 [31,32] 使量化得到广泛关注，能够在保持准确率的同时大幅减小模型规模。最近，在 2020 年代，自适应量化策略被引入，根据硬件和应用约束动态调整精度水平，优化模型的实际部署 [33-35]。

知识蒸馏于 2015 年提出，通过将知识从较大的 “教师” 模型转移到较小的 “学生” 模型，为模型压缩提供了一种变革性方法 [36]。它最初旨在简化 DNNs 以实现更快的推理，如今已成为在计算资源有限但需要高准确率的应用中部署高效模型的关键技术。例如，知识蒸馏广泛应用于边缘计算，其中较小的模型支持实时应用，如实时语言翻译和语音激活虚拟助手 [11,37]。

NAS 是模型压缩的另一项重大进展，它自动化 DNN 设计，以针对低延迟和资源受限环境等特定约束优化性能。早期思想受 2002 年进化算法的启发 [38]。然而，2019 年的可微分架构搜索（DARTS）通过提高架构搜索效率彻底改变了该领域 [39]。这些方法能够发现高效架构，对 LLMs 尤为关键。

2019 年提出的彩票票假设进一步推动了该领域的发展，表明密集 DNNs 中包含能够实现相当性能的稀疏、高效子网络 [40]。这一假设挑战了 DNNs 的规模与其学习能力直接相关的传统观点。对该假设的探索为更高效的 DNN 设计开辟了可能性，促成了最近兼具高效性和高性能的模型的发展，这对资源受限环境中的部署特别有利 [9]。

2020 年代出现了混合方法，结合剪枝、量化和蒸馏以进一步优化 LLMs。例如，BERT 的轻量级变体 ALBERT 在参数减少方面的有效性表明，因子化嵌入和参数共享可以用更少的资源实现竞争性结果 [1]。此外，GPT-4 在实现可扩展性的同时纳入了效率考量，从而得以广泛采用 [2]。混合压缩策略现在是研究的关键领域，推动了移动、边缘和大规模部署的低功耗人工智能（AI）的发展 [28,34,41,42]。图 1 展示了 LLM 压缩技术的关键进展如何随时间演变。

总之，从早期的剪枝到复杂的 LLM 定制策略，这些进展被证明在弥合前沿研究与实际部署之间的差距方面至关重要，为各个领域的变革性应用提供了动力。

LLM 的最新优化成果

本节探讨 LLM 优化中一些最重要的最新进展。通过整合这些前沿优化，现代 LLMs 正变得更加高效、适应性更强，适合实际应用，如实时对话 AI、代码生成、边缘计算和隐私保护系统。

模型稀疏性作为一项关键优化技术，已应用于稀疏混合专家等架构中，使 Switch Transformer 和通用语言模型（GLaM）等模型能够实现最先进的性能，同时降低计算开销 [43]。
低秩适应（LoRA）是另一项重大突破，它减少了微调期间的可训练参数数量，使大规模适应更高效、更具成本效益 [15]。
量化技术（如 4 位和 8 位量化）在减少内存消耗和提高推理速度方面发挥了重要作用，同时没有显著的准确率损失 [6,44]。
带有人工反馈的强化学习（RL）改善了模型对齐并减轻了有害偏差，OpenAI 的 GPT-4 和 Anthropic 的 Claude 模型就是例证 [45]。
架构效率改进（如 FlashAttention 和 Linformer、Performer 等 Transformer 变体）促进了更长序列的处理，同时降低了计算复杂度 [46]。
检索增强生成（RAG）通过整合外部内存进一步增强了模型能力，减少了对更大参数数量的需求，同时保持高事实准确率 [45]。

这些进展对下一代 AI 应用的发展至关重要，使 LLMs 在减轻训练和部署相关的计算需求增长的同时，更易于访问并在不同领域得到更广泛的应用。

模型压缩的最新进展显著影响了现代 LLMs 的发展，包括 Anthropic 的 Claude、Meta AI 的大型语言模型（LLaMA）和谷歌的 Pathways 语言模型（PaLM）。这些模型采用不同的效率策略，包括剪枝、量化、蒸馏和混合架构，在性能与减少的计算和内存需求之间取得平衡。

Anthropic 的 Claude 整合了带有人工反馈的 RL 和一种名为 “宪法 AI” 的新方法，改善了对齐和效率 [47,48]。Claude 还采用混合符号 - 神经推理策略，根据任务复杂度动态调整计算深度，实现更高效的推理流程和更低的平均计算量，同时不影响性能 [49]。虽然具体的剪枝或量化指标尚未公开，但系统架构表明针对实时和可扩展应用进行了有针对性的效率增强。

LLaMA 已成为开源 LLM 压缩研究的参考模型。研究表明，结构化剪枝（如移除 Transformer 层的深度）可以大幅减少推理计算需求，同时保持性能 [50]。通过量化低秩适配器（QLoRA）[51] 和激活感知权重量化（AWQ）[52] 等量化工具有进一步实现压缩，这些工具支持 4 位推理，且准确率损失最小。集成剪枝和蒸馏流水线已展示出强大的性能，40 亿参数模型在标准基准测试上优于更大的基线模型 [53]。

PaLM 通过架构创新和压缩技术强调扩展效率。PaLM 2 模型表明，在更大数据集上训练的小规模模型可以优于更大的前代模型，提供更高的计算效率 [54]。此外，“逐步蒸馏” 等蒸馏策略将 PaLM 540B 的推理能力转移到小 700 倍的学生模型，同时保持相当的任务性能 [55]。这些方法在逻辑推理基准测试中显著减少了推理延迟和内存需求，同时保持了准确率。

LLM 压缩的基准测试和评估平台

为了对压缩后的 LLMs 进行基准测试，各种平台和数据集提供了专门的和通用的评估套件，使研究人员能够全面评估模型性能：

Papers with Code（PwC）：为一系列语言模型（包括其压缩变体）在各种 NLP 任务上提供标准化基准测试。每个任务都有相关的排行榜，许多压缩模型条目链接到 GitHub 仓库以提供实现 [56]。
MLCommons：提供用于衡量压缩模型效率的基准数据集和任务，重点关注 NLP 和其他领域的推理延迟、准确率和内存效率。该平台包括专为比较压缩后的 LLMs 而设计的基准测试 [57]。
Hugging Face 模型库：提供广泛的预训练模型及其压缩变体，包括涵盖问答、摘要和文本分类等任务的评估指标。该平台提供用于比较模型大小、推理延迟和准确率的工具 [58]。
斯坦福大学基础模型研究中心（CRFM）：从公平性、鲁棒性和效率等多个标准评估 LLMs。该框架全面评估模型能力，使其成为在各种语言和推理任务上测试压缩模型的关键资源 [59]。
Neural Magic 的 SparseZoo：提供预训练的稀疏模型和用于各种神经网络架构剪枝和量化的基准测试。该仓库包括为资源受限边缘设备推理优化的模型，使其非常适合评估压缩后的 LLMs [60]。
斯坦福大学的 DAWNBench：专注于模型训练和推理延迟，对延迟敏感型应用特别有价值。该基准测试包括通过压缩技术优化的模型和压缩方法 [61]。

已经开发了多个平台来基准测试 LLMs、NLP 任务和整体评估方法，如 CRFM 开发的语言模型整体评估（HELM）。此外，机器学习共同体（MLCommons）是机器学习性能（MLPerf）基准测试套件的背后组织，提供标准化测试来评估 ML 模型的性能、效率和可扩展性。表 1 对用于评估压缩 LLMs 的专门基准测试平台进行了系统比较。

本研究的贡献和创新点

本文对 LLMs、GNNs 和通过 NAS 优化的架构的最先进压缩技术进行了系统综述和分析，重点关注它们在不同硬件环境和资源受限设备中的部署。本综述的主要贡献和创新点包括：

技术的全面覆盖：我们详细考察了基本压缩技术，包括剪枝、量化、知识蒸馏、自适应截断和混合压缩策略，展示了它们在减少内存使用、计算开销和能耗方面的功效，同时保持特定任务的性能。
NAS 与模型优化的整合：我们将 NAS 分析为一种协同设计架构的方法，实现任务感知和硬件自适应模型，在 LLMs 和 GNNs 中实现准确率和效率之间的帕累托最优权衡。
评估框架：我们开发了一个综合评估框架，超越了传统指标（如任务准确率和困惑度（PPL）），纳入了延迟 - 准确率权衡（LAT）、参数效率、多目标帕累托优化和公平性。该框架支持压缩技术的严格比较。
趋势和挑战：我们确定了关键发展，包括公平感知压缩、对抗性攻击鲁棒性和硬件特定优化，以及持续存在的挑战，如偏差放大、保持泛化能力和确保在异构硬件环境中的可扩展性。
任务和环境适应性：我们强调能够动态平衡性能和资源效率的自适应压缩方法，使 LLMs 和 GNNs 能够在多个任务和部署环境（包括移动设备和云基础设施）中部署。
未来研究大纲：我们提出了一个战略展望，综合了最新进展，并为开发高效、可扩展和公平感知的 AI 系统提出了未来方向。该大纲强调跨学科合作以及将 NAS 驱动的方法与传统压缩技术相结合。

通过对技术的深入综述、稳健评估框架的开发以及对趋势和实际挑战的分析，本文对高效、可扩展和稳健的 AI 系统的发展进行了结构化综合。NAS 驱动优化的纳入凸显了本综述在应对 AI 应用新兴需求方面的贡献。

本文结构

本文对 LLM 压缩进行了结构化综述，涵盖其目标、方法和实际意义。它概述了核心挑战和评估标准，分析了最先进的技术，并包括案例研究、未来研究议程以及对权衡和开放问题的讨论。图 2 说明了本文的结构和各部分之间的相互联系。

LLM 的压缩技术

基础方法

LLMs 高效部署的需求推动了压缩技术的发展，以减少模型大小、推理延迟和内存需求，同时不影响任务性能。核心方法包括剪枝、量化、知识蒸馏和 NAS，每种方法都有独特的优势和权衡。这些技术经常结合使用，以在各种任务和平台上最大化整体效率 [62]。本节探讨它们在 LLMs 中的机制和应用。

剪枝

剪枝通过减少 DNN 中的参数或连接来提高内存使用、推理延迟和计算效率，同时保持任务性能。通过基于幅度或显著性等标准移除被认为不太关键的组件（如权重、神经元或层），该技术增强了模型在资源受限环境中的部署 [34,62,63]。图 3 展示了如何通过移除连接和节点将密集网络转换为稀疏网络，从而得到更适合实际部署的高效架构。

剪枝技术通常分为结构化剪枝和非结构化剪枝，每种都有独特的权衡，适用于特定的部署场景。

结构化剪枝：这种方法基于组件对任务性能的贡献移除整个组件，如注意力头、神经元或层。结构化剪枝简化了模型架构，并增强了与硬件加速操作（如矩阵乘法）的兼容性。例如，剪枝 Transformer 中表现不佳的注意力头减少了内存需求和推理延迟。这使其非常适合在资源受限的硬件上部署 [9]。
非结构化剪枝：移除层内的单个权重，导致稀疏权重矩阵。尽管它通常比结构化剪枝实现更大的参数减少，但由此产生的不规则稀疏模式对硬件加速提出了挑战。稀疏矩阵表示和专用库的最新进展有助于缓解这些限制，在资源受限任务中实现性能提升。迭代幅度剪枝和彩票票假设等技术已展示出显著的参数减少，同时保持任务性能 [40,62]。

公式（1）将剪枝表述为一个优化问题，目标是找到剪枝后的权重集Wp，使相对于原始模型W的损失偏差最小化。函数L(⋅)表示损失函数，范数捕捉剪枝后的性能差异。如果损失是标量，则使用绝对差；否则，适当的范数（如 L2 范数）量化批次或完整数据集上的偏差 [64]。Wp∗=argminWp∥L(W)−L(Wp)∥2(1)

剪枝技术越来越多地应用于 LLMs，以减少计算开销，同时保持任务性能。例如，结构化剪枝已应用于 Transformer 架构中的注意力头，而非结构化方法（如幅度剪枝）在计算密集型环境中实现了高稀疏度 [46]。

图 4 展示了三种剪枝流水线：（a）训练期间剪枝，其中剪枝和训练同时进行，随后进行微调；（b）训练后剪枝，其中网络先预训练、再剪枝，并可选地进行微调；（c）训练前剪枝，其中网络在初始化时基于预定义标准进行剪枝，然后从头开始训练 [63]。

量化

量化通过使用 8 位、4 位或 1 位（二进制）等低精度格式表示权重和激活，替代标准的 32 位单精度浮点格式，从而降低模型参数的精度 [6]。这种技术显著减少了内存需求和计算开销，使其特别适合在内存受限设备和专用硬件加速器（如图形处理器（GPUs）和张量处理器（TPUs））上部署 [10]。

图 5 展示了从左侧的全精度 DNN（描述为 32 位浮点（FP32）模型）到右侧的量化版本（描述为 8 位整数（INT8））的转变。FP32 模型需要更多的内存和计算资源，而 INT8 模型则紧凑得多。尽管精度降低，但量化模型旨在保持相当的准确率，使其在资源受限硬件上的部署非常有效。这种转变说明了 DNN 量化中模型大小、计算效率和预测性能之间的权衡。

量化影响 DNNs 的权重和激活，进而影响整体效率和性能。虽然权重量化已得到充分研究，但激活量化由于激活的动态范围和统计分布而带来了额外挑战 [25,44]。准确的激活量化对于减少内存需求同时保持任务性能至关重要。不准确的激活量化（特别是在早期层中）会损害泛化能力并降低下游任务性能 [30]。

公式（2）将量化误差Eq定义为原始全精度权重矩阵W与其量化对应物wq之间的差异。该公式使用矩阵 2 - 范数捕获量化引入的最大偏差，对应于差异矩阵W−Wq的最大奇异值。该范数衡量量化表示在频谱特性方面与原始表示的偏离程度。Eq=∥W−Wq∥2(2)

量化方法通常分为三类：均匀量化、非均匀量化和混合精度量化，每种都提供平衡模型效率和性能的独特策略：

均匀量化：将值映射到等间隔的级别，在参数或层上使用固定位宽。这种方法简化了实现并减少了计算开销。它能够在对任务性能影响有限的情况下实现显著的内存节省，特别是在 BERT 和 GPT-2 等模型中。量化后微调通常用于使模型适应下游任务并恢复潜在的准确率损失 [6,10]。
非均匀量化：基于对量化的敏感性为参数和激活使用可变位宽。在关键层中保留更高精度的表示，而对不太敏感的组件可以更激进地量化。量化感知训练（QAT）和训练后量化（PTQ）等技术支持选择性量化。QAT 在训练期间模拟量化效果，使模型能够适应低精度表示并减少性能下降，而 PTQ 在训练后使用校准数据集应用量化以最小化准确率损失 [10]。
混合精度量化：通过允许权重和激活基于其敏感性在同一模型的不同层上以不同位宽进行量化，扩展了非均匀量化。例如，高方差层中的激活可以保留 8 位精度，而不太关键的层可以量化到 4 位或更低。这种方法在内存效率和任务性能之间取得平衡，使其特别适用于资源受限环境中的部署 [65]。

图 6 说明了均匀量化和非均匀量化之间的区别。（a）均匀量化，其中值在范围内均匀映射，导致一致的步长。这种方法计算效率高，但可能对异常值引入更高的量化误差。（b）非均匀量化，其中步长变化以将更多精度分配给频繁出现的值或关键范围。这种方法平衡了准确率和效率，使其特别适用于具有非均匀分布的数据集。

公式（3）说明了权重量化的整体优化问题。该公式旨在通过确定最佳量化权重配置Wq∗，最小化量化导致的任务性能下降。函数L(⋅)分别表示原始模型w及其量化对应物wq的损失。范数捕获性能差异，可以解释为量化引入的特定任务损失偏差。根据上下文，范数可能指绝对值（对于标量损失）或L2范数（对于跨数据样本的聚合损失）。Wq∗=argminWq∥L(W)−L(Wq)∥

量化广泛用于优化 LLMs 在资源受限环境中的部署。BERT 和 GPT-2 等模型的量化变体在谷歌翻译等云服务以及 Alexa 和 Siri 等虚拟助手中实现了更快的推理和更低的能耗。在移动和边缘设备上，量化使 LLMs 能够在内存和计算能力有限的硬件（包括智能手机和物联网（IoT）设备）上高效执行 [7,66]。除了消费类应用外，量化还用于推荐系统和金融预测，在这些领域中，在不影响准确率的情况下最小化延迟和运营成本至关重要。在医疗保健领域，它促进了边缘设备上的高性能诊断，用于实时医学成像和患者数据分析 [67]。

知识蒸馏

知识蒸馏通过训练较小的 “学生” 模型来复制较大的 “教师” 模型的行为，从而压缩模型。通过转移关键知识，学生模型以更少的参数实现相当的性能，使其在资源受限部署中有效 [11,68]。学生模型不仅从真实标签中学习，还通过匹配教师的软目标或输出分布来学习，从而促进更好的泛化 [69]。

图 7 说明了知识蒸馏如何通过将软目标与监督学习相结合，将学到的信息从更大、更复杂的教师模型转移到更小、更高效的学生模型。

如公式（4）所示，知识蒸馏结合了两个互补的学习信号。第一个组件LCE是标准交叉熵损失，它指导学生模型从真实标签中学习。第二个组件LKL对应于 Kullback-Leibler 散度，鼓励学生模仿教师模型的软化输出分布。这种软化是通过温度缩放实现的，其中教师的 logits 除以温度参数τ，产生更平滑、峰值更低的分布，便于学生近似。超参数λ控制蒸馏项在整体损失中的相对重要性。知识蒸馏的总损失表示为：

LKD=LCE+λτ2LKL(4)

通过整合硬标签和软教师预测，训练目标使学生模型能够从直接监督中受益，同时捕获更大教师模型的泛化能力。当与剪枝或量化结合使用时，这种方法产生资源高效的架构，在保持任务准确率的同时，与原始模型的性能非常接近 [34,70]。

知识蒸馏广泛用于促进资源受限环境中高效模型的部署，具有显著的应用，包括：

语音识别：促进虚拟助手和自动转录服务等实时应用 [69]。
计算机视觉：提高移移动和边缘设备上的目标检测和图像分类等任务的效率 [37]。
NLP：DistilBERT 等蒸馏模型提供了更大架构的轻量级替代方案，在聊天机器人和问答系统等应用中实现更快的推理 [69]。
推荐系统：减少大规模用户 - 项目交互模型的计算开销，同时保持个性化内容交付（如产品建议和媒体推荐）的准确性 [69,71]。

神经架构搜索（NAS）

NAS 通过探索配置空间以在特定任务约束下优化性能，实现神经网络架构的自动化设计 [12,72,73]。与依赖专家驱动启发式的手动架构设计不同，NAS 采用强化学习 [74]、进化算法 [75] 和基于梯度的优化 [75] 等技术，有效识别高性能架构。NAS 可以与剪枝、量化和知识蒸馏等模型压缩技术相结合，生成紧凑高效的模型。此外，One-Shot NAS 中的权重共享策略支持结构化剪枝，且重训练开销最小 [76]。

NAS 通过定义包含潜在架构组件（如层类型、连接模式和超参数）的搜索空间来运作。然后采用搜索策略探索该空间，并使用预定义的目标函数（如任务准确率、推理延迟或能效）评估候选架构。这个迭代过程使 NAS 能够逐步优化并收敛到最佳架构。可微分 NAS 方法（如 DARTS）的最新进展显著降低了传统方法的计算成本，使优化过程更快、更具可扩展性 [39]。

图 8 NAS 过程概述。搜索空间定义候选架构集，搜索算法迭代采样和评估这些候选架构。评估模块基于预定义的性能指标评估每个架构，该过程持续到确定最佳架构为止。

在压缩 LLMs 时，目标是确定平衡推理速度、任务准确率和内存效率的最佳神经架构。这通常通过 NAS 实现，NAS 作为两阶段优化过程运作：

找到最佳架构（\(α\)）：搜索过程旨在通过最小化验证损失c来识别最佳架构参数\(α\)。然而，由于给定架构的性能取决于其相关模型权重w，因此在每个评估步骤都需要训练。
为每个架构训练模型：给定固定架构\(α\)，通过最小化训练损失c优化相应的模型权重w。这确保基于完全训练的性能评估每个候选架构。

如公式（5）所示，架构搜索过程被表述为双层优化问题。该公式旨在识别最小化验证损失的最佳架构参数\(α\)，同时考虑到必须使用其相应的训练权重\(w^{*}(α)\)评估每个架构。外部目标基于性能指标寻找最佳架构，而内部目标通过最小化训练损失计算给定架构的最佳权重。函数\(L(\cdot, \cdot)\)表示用于评估性能的损失，包含架构和权重依赖性。这种分层优化捕获了 NAS 中架构设计和模型训练之间的耦合。\(min _{\alpha} \mathcal{L}\left(w^{*}(\alpha), \alpha\right) subject to w^{*}(\alpha)=arg min _{w} \mathcal{L}(w, \alpha)\)

评估通过 NAS 优化的架构需要全面的视角，超越准确率或 PPL 等传统指标。关键考虑因素包括延迟 - 准确率权衡、硬件适应性、公平性和能效。此外，与手动设计的架构相比，NAS 生成的模型通常需要额外的超参数调整，以增强对 adversarial 扰动的鲁棒性并满足部署约束。

不同的 NAS 算法在搜索效率、模型质量和计算成本方面呈现出不同的权衡：

基于 RL 的 NAS：NASNet 等方法使用 RL 探索架构搜索空间，以最大化奖励函数，通常包含任务准确率和延迟等约束。虽然这些方法可以生成高质量架构，但它们计算密集，对于扩展到 LLMs 不太实用 [74]。
DARTS：这种方法将离散架构选择放松为连续变量，支持基于梯度的优化，并显著减少搜索时间。然而，它可能过度拟合搜索期间使用的超级网络，导致最终架构独立重训练时性能次优 [39]。
One-Shot NAS：ProxylessNAS 等方法训练包含所有候选子网络的超级网络。这些子网络无需重训练即可采样和评估，实现高效且硬件感知的架构优化 [67]。
进化 NAS：AmoebaNet 等方法通过迭代优化在连续代中进化候选架构。这些方法通常对局部最优更稳健，但通常比可微分和 One-Shot 方法更慢且计算需求更高 [38]。

表 2 NAS 方法比较，强调计算效率、可扩展性和优化能力方面的权衡。

此外，NAS 已成功应用于跨一系列实际应用优化 LLMs，展示了其生成特定任务、硬件高效架构的能力，同时保持竞争性性能：

移动和边缘设备：ProxylessNAS 优化神经架构以提高延迟和内存效率，促进在资源受限硬件平台上的部署 [5]。
云服务：NASNet 和相关方法平衡计算效率和模型性能，使其适合大规模基于云的推理和服务交付 [74]。
推荐系统：通过 NAS 优化的架构提高吞吐量并减少延迟，实现高效的实时推荐交付 [77]。
医疗 AI：在医学成像和诊断中，NAS 用于设计轻量级模型，提供高准确率和快速推理 [6]。

尽管有其优势，用于 LLM 压缩的 NAS 仍面临几个显著挑战。一个主要问题是可扩展性：评估具有数十亿参数的模型的数千个候选架构会产生大量计算需求。此外，搜索策略可能引入偏向特定数据集或任务的偏差，限制所得架构的泛化能力。解决这些限制需要开发更高效的搜索启发式和公平感知优化策略。

未来研究应优先创建硬件感知 NAS 方法，为下一代加速器（如 TPUs、现场可编程门阵列（FPGAs）和专为 AI 设计的低功耗芯片）定制架构。此外，自监督 NAS 的进展可能有助于减轻计算需求，实现更自适应和高效的 LLMs 设计，以动态适应部署约束。

核心压缩策略的比较评估

为支持前面对基础压缩技术的解释，表 3（第 15 页）简要概述了剪枝、量化、知识蒸馏和 NAS。它综合了关键性能指标，如准确率保留率、压缩比、推理速度和能效，以及实现考虑因素，包括算法复杂度、硬件依赖性和训练要求。该表还概述了每种方法的典型用例和局限性，为基于特定应用目标和部署约束选择合适策略提供了实用参考。

结构感知适配

除了已建立的压缩策略外，结构适配技术通过修改 LLMs 的内部架构或操作拓扑提供了另一种方法。这些方法不只是专注于参数级减少或基于训练的优化，而是重塑模型的计算结构，以提高跨部署环境的效率和适应性 [4,78]。本节探讨该类别中的两种主要方法：自适应截断（动态减少序列长度以最小化冗余计算）和 GNNs（提供灵活的非序列表示以增强模型表达能力和压缩）。这些方法共同反映了向结构感知压缩的转变，扩展了高效 LLMs 的设计空间。

自适应截断

自适应截断在训练和推理期间动态调整层内的序列长度或活动神经元数量，从而优化计算效率，同时保持任务性能。该技术适用于全连接层和卷积层，基于特定任务相关性选择性识别和排除不太相关的神经元或输入标记，从而减少总体资源需求 [78]。

对于 DNN 中的给定层，自适应截断在\([N_{min }, N]\)范围内选择阈值k，其中N表示神经元或标记的总数。索引大于k的神经元被排除在计算之外，从而减少层的有效大小。下限Nmin确保保留基线功能，而索引接近N的神经元通常由于其较低的相关性而被剪枝 [4]。

这个过程在选择要排除的神经元时引入了一定程度的随机性 —— 类似于 dropout，但更强调为目标任务定制的架构优化。由此产生的网络根据计算效率和预测准确率之间的权衡动态调整其大小，使其特别适合在资源受限环境（如移动平台和边缘设备）中部署。

在训练场景中，自适应截断可以作为有效的正则化技术。通过减少活动神经元集或序列长度，它在训练期间引入架构可变性，有助于减轻过拟合。这种方法在输入长度高度可变的应用中特别有益，如实时翻译和文本摘要。

公式（6）将自适应截断过程形式化为约束优化问题。目标是确定减少的序列长度\(L_{r}\)，以最小化计算成本\(C(L, L_{r})\)，同时保持最低可接受的性能水平\(P_{min }\)。这里，L表示原始输入序列长度，而\(L_{r}\)是优化后的截断长度。成本函数\(C(\cdot)\)捕获计算资源使用情况 —— 如浮点运算、延迟或内存 —— 作为序列长度减少的函数。性能函数\(P(L_{r})\)评估给定\(L_{r}\)的模型准确率（或其他与任务相关的指标）。约束\(P(L_{r}) ≥P_{min }\)确保截断不会使任务性能下降到可接受阈值以下，使该公式特别适合需要联合优化资源效率和任务可靠性的场景 [4]。\(arg min _{L_{r}}\left(\mathcal{C}\left(L, L_{r}\right)\right), subject to \mathcal{P}\left(L_{r}\right) \geq \mathcal{P}_{min }\)

图 9 自适应截断应用于序列处理的说明。每个节点代表密集层中的神经元；红色节点表示不活动或已移除的神经元，灰色节点表示参与计算的活动神经元。(a) Dropout 在训练期间随机停用神经元，而不永久移除它们。(b) 截断确定性地移除不太相关的神经元，仅保留任务关键组件。这种选择性减少降低了内存需求、计算需求和推理延迟，同时保持任务性能。

虽然在概念上与 dropout 相似，但自适应截断在几个关键方面有所不同：

Dropout：在训练期间随机临时停用神经元，不改变网络结构。这种技术通过对子网集合求平均有效提高泛化能力。
截断：通过对神经元或标记激活应用阈值，确定性或概率性地减少网络的活动大小。与 dropout 不同，截断直接修改计算图，支持层维度的显式优化以提高部署效率 [72]。

在全连接 DNNs 中，通过根据概率分布逐步减少活动神经元的数量，将截断应用于隐藏层。实证研究表明，这种方法能够有效平衡计算效率和预测准确率 [81]。尽管有其优势，自适应截断在深度架构的多个层中应用时仍面临几个挑战。一个关键挑战是阈值优化，因为最佳截断水平高度依赖于输入可变性 —— 需要针对特定任务进行精细校准。另一个问题是效率和准确率之间的权衡：过度激进的截断可能导致关键上下文信息丢失，降低依赖长程依赖或全序列理解的任务性能。

基于图的方法

GNNs 已成为扩展 LLMs 能力的强大工具，特别是在知识整合、推理和模型压缩领域。通过利用基于图的表示，这些网络有效捕获复杂的关系结构和长程依赖 —— 这是提高 LLMs 效率和可解释性的关键因素。它们在压缩中的应用包括基于图的知识蒸馏、基于拓扑洞察的结构化剪枝，以及通过连接感知分析优化量化方案

图 10 用于 LLM 压缩的基于 GNN 的知识蒸馏框架。该架构包括三个核心组件：(1) 图指令提示编码器，通过整合来自图的结构和语义信息微调教师模型；(2) GNN 模块，促进学生模型的自适应特征学习，实现轻量级表示的获取；(3) 层自适应损失机制，通过知识过滤对齐教师和学生特征，确保高效且高保真的知识转移。

GNNs 为压缩 LLMs 提供了灵活且可解释的框架。它们适应不同架构和部署约束的能力使其在实际应用中特别有价值。未来研究应通过将 GNN 驱动的见解与传统压缩技术相结合，推进这些方法，形成提高可扩展性和性能的混合方法 [22]。

GNNs 通过将教师模型的知识编码为图（其中节点代表语义实体或架构组件，边捕获它们的功能或层次关系）促进知识蒸馏 [4]。GNN 从这种结构化表示中学习，以训练轻量级学生模型，有效保留复杂交互，并实现结构化推理和特定任务泛化。

除了蒸馏之外，GNNs 通过结构化剪枝支持压缩。通过将 LLMs 建模为计算图，它们可以识别冗余或低显著性组件（如注意力头或密集层权重），并为剪枝策略提供信息，以最小化准确率下降同时提高效率。例如，基于图的分析可以指导移除不必要的连接或减少 Transformer 架构中的中间维度。

此外，GNNs 通过预测层对精度降低的敏感性协助量化。将模型参数表示为计算图中的节点，使网络能够估计哪些组件可以容忍更低的位宽而不损害整体性能。这种方法支持内存使用和计算开销的细粒度优化。

目标优化技术

资源受限环境中 LLMs 的部署受到其大量内存使用、计算需求以及与通用硬件兼容性有限的阻碍。这些挑战需要目标优化技术，这些技术超越通用压缩策略，转而解决基于 Transformer 的模型的架构和操作复杂性 [12,34,63]。

与通常难以平衡模型紧凑性和性能的传统压缩方法不同，目标技术专为保留 LLMs 的关键功能组件同时提高效率而设计。显著示例包括 QAT 和 PTQ 以减少位宽表示 [63]、应用于冗余注意力头和前馈层的结构化剪枝 [12]，以及生成轻量级、部署优化模型的硬件感知神经架构搜索（NAS）[34]。

除此之外，知识蒸馏和低秩 factorization 等先进方法已被应用于进一步减小模型大小和计算负担，同时不影响准确率 [81,83]。这些方法通常与 Transformer 模型的结构特征对齐，并针对与专用硬件加速器（如 GPU、TPU 和边缘推理设备）的兼容性进行优化。

通过为 LLMs 的独特需求定制压缩技术，研究人员在部署可行性方面取得了显著进展 —— 在资源约束严格的环境中实现高吞吐量、低延迟推理。这种进步对于将 LLMs 集成到移动平台、嵌入式系统和实时应用中尤为关键。

随着模型架构在规模和复杂性上的不断发展，目标优化技术的开发和完善仍然至关重要。它们的有效性不仅取决于压缩性能，还取决于它们对新兴硬件和部署环境的适应性。未来研究必须继续探索模型设计、压缩策略和系统级约束之间的相互作用，以确保 LLMs 在规模上的可持续和实际采用。

混合和渐进策略

混合方法和渐进压缩技术以协调的方式整合多种压缩策略，以最大化效率同时保留模型性能。这些方法利用各个技术的互补优势，并在训练或部署过程中顺序或自适应地应用它们，为在不同资源约束下压缩 LLMs 提供灵活的解决方案。

集成压缩流水线

量化、剪枝和知识蒸馏等模型压缩技术通常在混合压缩方法中结合使用，以解决 LLMs 的大量内存和计算需求 [4,8]。这些集成方法旨在大幅减小模型大小和推理延迟，同时保留任务性能。然而，使用多种压缩策略优化 LLM 带来了显著挑战，包括技术之间的潜在冲突、调优复杂性以及模型稳定性的下降。

模型压缩的传统方法以顺序方式应用剪枝、知识蒸馏和量化 [8]。剪枝消除冗余参数，蒸馏将知识转移到更小的模型以保持准确率，量化利用蒸馏模型的优化表示来降低精度。还提出了其他工作流，例如在蒸馏之前应用剪枝或量化，或者使用迭代循环 [81]。例如，带知识蒸馏的量化鲁棒剪枝（QRPK）通过在蒸馏之前执行剪枝来增强量化鲁棒性，从而确保在不同位宽配置下的效率 [34]。

结合剪枝、蒸馏和量化可增强模型压缩，同时保留性能 [82,85]。例如，NVIDIA 的 Megatron-LM 将混合精度训练与剪枝策略相结合，在不影响准确率的情况下显著降低内存需求 [43]。同样，谷歌的 T5 框架采用诱导稀疏性的剪枝与知识蒸馏相结合，以有效扩展，在翻译和摘要等任务中保持高性能 [45]。这些实现表明，混合方法在优化大规模模型以进行实际部署方面的应用日益广泛。

AutoML 驱动的动态压缩

自适应压缩根据特定任务需求动态定制压缩策略 —— 例如，在资源受限环境中应用激进剪枝，而在延迟敏感应用中优先考虑准确率保留 [66]。自动化 ML 方法（如 Once-For-All（OFA））跨多个维度（包括速度、大小和准确率）优化模型架构，从而促进在移动和边缘设备上的高效部署。这些混合方法有效平衡参数效率和模型性能，在计算机视觉和 NLP 任务中均表现出强大的适用性。模型压缩根据三个核心原则动态调整：

特定任务要求：在关键应用中保留准确率，而在延迟敏感场景中可以接受权衡。
硬件约束：对边缘设备应用激进压缩，对服务器级基础设施应用较轻压缩。
实时响应能力：系统在模型变体之间切换以适应不断变化的延迟需求。这种自适应方法在各种部署环境中最大化效率，同时保持可接受的性能 [66]。

这种自适应策略提高了计算效率，并支持跨平台部署，同时优化准确率 - 性能权衡。然而，其实现需要精心设计以克服几个挑战。适应机制必须产生最小的开销，保持系统稳定性，并避免破坏性振荡。此外，动态切换逻辑及其相关元数据引入了必须有效管理的部署复杂性。这些考虑因素造成了灵活性和可靠性之间的关键设计权衡，这最终决定了实际部署的可行性。

硬件感知协同设计策略

在实际场景中，硬件感知优化通过使其执行与底层硬件架构的能力对齐，进一步提高压缩模型的效率。例如，NVIDIA 的 TensorRT 框架整合了硬件特定技术（如层融合和混合精度推理），以加速 GPU 环境中的模型执行，同时保留准确率 [67]。同样，Facebook 的开源 PyTorch Mobile 框架整合了硬件感知策略，以在资源受限环境（包括智能手机和物联网设备）中实现高效的设备上推理 [12]。

这些优化强调了使模型架构与硬件能力对齐以最大化性能和资源利用率的重要性。第 6.2 节提供了对硬件感知优化技术的更详细讨论，包括它们对不同硬件平台的适应性。

具有性能保留保证的渐进压缩

渐进压缩通过在多个阶段逐步提高压缩强度，并在每个步骤后重新训练以使网络适应结构变化，从而保持模型准确率。这种分阶段方法系统地保留关键参数，同时消除冗余参数，允许模型在每个压缩阶段后重新校准并恢复性能。迭代过程支持特定任务和环境的优化，提供效率和准确率之间的可控权衡。

在压缩期间，诸如轻度剪枝和低位量化等技术与重新训练交错应用，以保留模型性能。例如，基于 Transformer 的模型在 NLP 任务中实现了显著的内存使用减少，同时准确率损失最小 [9]。同样，卷积神经网络（CNNs）在计算机视觉应用中展示了高达 50% 的参数减少，而不影响准确率 [63]。循环神经网络（RNNs）在时间序列预测中也保持了预测准确率，尽管经历了激进压缩 [28]。

渐进压缩的实际实现包括 Eyeriss 系统，该系统采用渐进剪枝在不影响准确率的情况下实现节能边缘 AI [14]，以及谷歌的语音识别模型，该模型利用渐进量化平衡内存需求和模型性能 [28]。通过在每个压缩阶段监控性能，这些方法有效防止性能下降，同时实现计算和存储成本的显著降低。

混合压缩系统中的权衡管理

混合模型压缩技术在模型大小和推理速度方面提供了显著收益。然而，它们也带来了复杂的权衡 [86]。每种额外的压缩方法都会增加整体设计复杂性，并且需要仔细平衡准确率和计算效率。即使是选择性剪枝也涉及模型大小和性能之间的权衡，而 MobileNetV3 等紧凑架构明确设计为同时优化延迟、准确率和计算成本 [7]。因此，混合压缩方法需要多个目标的联合优化 —— 包括大小、速度和准确率 —— 使得寻找最佳配置成为高度复杂且非平凡的任务。

压缩技术的顺序应用会引入干扰效应和复合误差。最近的理论研究表明，剪枝（引入稀疏性）和量化不是正交过程；相反，它们相关的误差以非线性且通常不可预测的方式相互作用 [87]。量化后进行剪枝导致的累积误差通常超过各个误差的总和，并且对这些技术的应用顺序高度敏感 [87]。

例如，先执行量化可能会扭曲模型权重的感知重要性，导致后续剪枝阶段无意中移除关键组件。即使顺序精心选择，由此产生的准确率下降也可能很大。这些干扰效应在实践中经常观察到：事后压缩流水线通常需要额外的微调来恢复丢失的性能，表明连续压缩阶段的误差以非线性方式累积。这种复杂的相互作用 —— 通常称为非正交性 —— 在计算机视觉和 NLP 模型中都有一致报道 [87]。

压缩方法的应用顺序对最终模型性能有重大影响。将剪枝和量化视为独立的顺序阶段通常会导致次优结果。正如先前研究指出的，“全精度模型的最佳网络架构不一定是剪枝和量化后的最佳架构”[88]。在实践中，先应用剪枝还是量化可能导致显著不同的行为。例如，先执行量化可能会改变权重分布并扭曲重要性指标，从而损害后续剪枝的有效性 [87]。

这些发现强调了仔细选择压缩操作的顺序和相互作用策略的重要性。为了减轻性能损失，一些方法主张联合或集成优化方案，而不是依赖简单的顺序流水线 [88]。总之，集成策略和执行顺序是混合压缩工作流设计中的关键考虑因素。

由于压缩方法相互作用，它们的相关误差以非线性方式累积。稀疏性和量化的组合通常导致比它们各自影响总和更大的准确率下降 [87]。在实践中，简单地按顺序应用这些技术（如剪枝后量化）可能导致超出直观预期的意外准确率损失。这种非线性复合意味着无法通过单独分析每个压缩步骤可靠地估计最终性能下降。因此，许多压缩流水线需要额外的纠正程序，如重新训练或微调，以抵消连续操作引入的放大误差。

为了恢复混合压缩丢失的准确率，研究人员经常采用微调或知识蒸馏，尽管这需要额外的计算资源。在剪枝或量化之后，通常的做法是在特定任务数据上重新训练模型；这个微调步骤可以显著恢复性能 [89]。同样，知识蒸馏涉及训练更小的模型来复制更大模型的行为，通常通过最小化它们的输出分布之间的差异。

值得注意的是，自动压缩流水线经常报告，每个压缩阶段（无论是剪枝还是量化）可能需要专门的微调来减轻累积性能下降。例如，神经网络蒸馏器 [90]、用于模型压缩的 AutoML [91] 和 MIT 的 MCUNet 压缩流水线 [92] 等框架整合了多个压缩阶段以及自适应搜索和调优机制。尽管微调和蒸馏有效补偿压缩引起的误差，但它们引入了必须在模型部署期间考虑的大量训练开销。

对混合压缩误差如何相互作用的严格理论理解仍然有限。最近的研究开始正式分析稀疏性和量化的综合影响 [87]，但剪枝、量化和蒸馏的全面误差理论模型仍然是一个开放的挑战。大多数现有方法依赖经验调优或代理指标，而不是封闭形式的理论框架。正如最近的调查所指出的，提高可解释性和理解压缩过程中的变化和权衡是关键的未来方向 [93]。总之，开发预测多种压缩方法复合影响的联合优化策略或分析边界仍然是该领域的一个关键未解决问题。

指标和性能评估框架

评估 LLM 压缩技术需要严格和标准化的性能框架。本章介绍用于评估模型大小、准确率、效率和部署可行性之间权衡的关键指标和评估标准。通过建立性能分析的一致基础，该框架支持压缩方法之间的公平比较，并支持大规模模型优化中的可重现研究。

核心评估指标

这些被视为基准指标，因为它们构成了大多数 NLP 任务中评估模型性能的基础。准确率衡量正确预测，而 PPL 评估模型预测语言序列的能力。尽管被广泛使用，但这些指标对压缩相关权衡（如效率、可扩展性或鲁棒性）的洞察力有限，而先进指标旨在捕获这些权衡。

困惑度（PPL）

PPL 是评估 LLMs 预测能力的基本指标，因为它量化了模型捕获和泛化语言模式和结构的能力。它评估为序列分配的概率，表明模型逼近基础数据分布的程度。较低的 PPL 值对应于文本完成、问答和上下文推理等任务中的更好性能。在模型压缩的背景下，在减小模型大小的同时保持低 PPL，可作为模型保留基本语言知识能力的指标。

PPL 与模型有效性之间的关系已得到充分确立：较低的 PPL 值对应更强的下一个标记预测能力，使 PPL 成为整体模型质量的可靠代理。压缩技术对 PPL 的影响程度不同，从而揭示特定架构组件的敏感性。重要的是，PPL 的变化通常与下游任务性能的变化相关。因此，架构选择显著影响 PPL 和压缩之间的权衡，强调压缩感知设计策略的必要性。

公式（7）显示了 PPL 的正式定义，计算模型在给定序列上预测的负平均对数似然的指数。表达式\(P(w_{i} | w_{<i})\)表示模型在给定其前面的上下文\(w_{<i}\)的情况下为标记\(w_{i}\)分配的概率。通过对标记总数N的对数概率求平均并应用指数函数，PPL 分数反映了模型的整体不确定性：较低的 PPL 表示更高的置信度和更好的语言理解。该指标对于比较不同大小的模型特别有用，尤其是在性能保留至关重要的压缩场景中。\(PPL=exp \left(-\frac{1}{N} \sum log P\left(w_{i} | w_{<i}\right)\right)\)

最近的研究表明，PPL 的增加与压缩模型的性能下降密切相关。这种关系通常遵循以下阈值：PPL 增加少于 15% 通常对下游任务影响最小，降解可忽略不计；增加 15% 至 30% 表明中度降解，通常需要特定任务的性能评估；增加超过 30% 则存在显著性能损失的重大风险，特别是在知识密集型任务中 [94]。

准确率

压缩 LLMs 的评估必须考虑特定任务要求和答案类型。不同的 NLP 任务由于输出格式和成功标准的变化，需要定制的评估策略。表 4 总结了关键答案类型及其相关评估指标，包括 F1 分数、接收器操作特性曲线下面积（AUC-ROC）、用于摘要评估的召回导向理解评估（ROUGE）、双语评估替补（BLEU）、精确匹配（EM）和自然语言学习会议 F1 分数（CoNLL F1）。还提供了关于每个任务类别的指标选择的其他详细信息，以支持全面的模型评估。

关键考虑因素包括答案类型的复杂性，其中二进制或分类任务通常需要比基于跨度或生成任务更简单的指标。使用部分信用指标（如用于标记重叠的 F1 分数）比严格的 EM 提供更细致的评估。此外，通常需要多个指标来捕获性能的不同方面，并平衡准确率、覆盖率和鲁棒性之间的权衡。最后，应纳入实际约束（如响应时间和资源利用率），以全面评估模型在实际部署中的适用性。

面向效率的指标

这些指标超越基准性能评估，量化模型压缩期间引入的权衡，如稀疏性、延迟与准确率以及参数利用率。它们旨在评估压缩模型满足实际部署约束的程度，使其成为衡量实际效率和有效性的关键。

稀疏性正则化

稀疏性正则化是 LLM 压缩中的一个基本概念，促进具有减少数量的活动参数的表示。虽然它本身不是一种压缩技术，但它显著增强了剪枝和量化等方法的有效性。通过将正则化项（如 L1 范数或结构化稀疏性惩罚）纳入训练目标，稀疏性正则化鼓励权重或激活收敛到零，从而在模型中引入稀疏结构 [63]。

在 LLMs 的背景下，稀疏性通过识别和消除冗余或不太关键的组件（如神经元、权重甚至整个层）促进压缩。这种减少不仅降低了模型的内存需求，还通过减少必要计算的数量加速推理。此外，稀疏性感知技术与现代硬件加速器很好地对齐，这些加速器越来越能够利用稀疏数据结构来优化存储和计算效率。

公式（8）给出了稀疏性正则化的正式定义。在这个公式中，通过向原始特定任务损失函数添加\(L_{1}\)正则化项来鼓励稀疏性。目标是减少模型中非零权重的数量，从而最小化冗余并促进更紧凑的架构。这种方法在 LLMs 中特别有价值，LLMs 通常表现出过度参数化，具有许多不必要的参数。通过惩罚权重的绝对值，正则化项\(|W|_{1}\)将不太重要的参数推向零。正则化系数\(β\)控制模型性能和稀疏性之间的权衡。这种技术有效支持通过剪枝实现高效压缩，并加速边缘设备和其他资源受限平台上的推理 [63]。\(\mathcal{L}_{sparse }=\mathcal{L}(W)+\beta\| W\| _{1}\)

延迟 - 准确率权衡（LAT）

LAT 指标是平衡模型性能和计算效率的关键概念，特别是在资源受限环境中。它解决了处理速度和预测质量之间的固有权衡，这对于在实际场景中部署 LLMs 至关重要。与将准确率和延迟视为单独目标的传统评估方法不同，LAT 指标将这两个因素整合到一个统一框架中，支持更明智的部署决策 [41]。

这种方法在计算资源有限的环境中特别相关 —— 如边缘设备或实时系统 —— 其中优先考虑一个目标（如准确率）可能会增加推理延迟，而强调速度可能会降低预测质量。通过引入特定于部署的加权参数\(α\)，LAT 指标支持针对特定应用需求的定制优化。

LAT 指标旨在在单个标量值中捕获预测质量和计算效率之间的平衡。在实时应用或边缘设备等同时重视推理速度和准确率的环境中部署 LLMs 时，这一点尤为重要。

图 9 说明了 LAT 指标，它应用特定于部署的加权参数\(\alpha \in[0,1]\)，允许从业者根据目标环境的约束优先考虑准确率（\(\alpha \to 1\)）或延迟（\(\alpha \to 0\)）。它将压缩模型的性能和延迟与原始模型的基线值进行比较。该指标惩罚相对于原始模型的准确率下降和延迟增加。令\(acc_{comp}\)和\(latency_{comp}\)分别表示压缩模型的准确率和延迟，acc和latency表示原始模型的相应值。\(LAT=\alpha \cdot\left(1-\frac{ acc_{comp} }{ acc }\right)+(1-\alpha) \cdot\left(\frac{ latency_{comp} }{ latency }\right) \quad(9)\)

这个公式量化了两个维度的下降：第一项惩罚准确率损失，第二项考虑延迟增加。较低的 LAT 值更可取，表明压缩模型保留了接近原始模型的性能，同时延迟开销最小。

参数效率

参数效率是评估压缩模型如何有效利用其减少的参数空间的关键指标。随着 LLMs 扩展到数千亿参数，平衡参数减少与性能保留变得越来越重要。传统评估方法通常只关注压缩比或任务准确率，而忽略保留参数数量与其对模型整体性能的功能贡献之间的微妙关系。

通过评估保留参数的数量和功能效用，参数效率提供了更全面的模型优化衡量标准。该指标与 LLMs 特别相关，其中过度参数化普遍存在，识别冗余组件对于提高内存利用率和计算效率至关重要。

公式（10）定义了参数效率指标。它量化压缩模型相对于其保留的参数比例保留预测性能的有效性。令acc表示原始模型的准确率，\(acc_{comp}\)表示压缩后的准确率。同样，令params表示原始模型中的参数总数，\(params_{comp}\)表示压缩版本中的参数数量。该指标计算为相对准确率与相对参数计数之间的比率。\(PE=\left(\frac{ acc _{comp }}{ acc }\right) /\left(\frac{ params _{comp }}{ params }\right)\)

\(PE>1\)的值表明模型每保留一个参数实现了优于预期的准确率保留，表明强大的参数利用率。相反，低于 1 的值意味着效率次优，即需要太多参数来维持可接受的性能。最先进的方法报告标准压缩技术的参数效率值在 1.2–1.3 范围内，结合知识蒸馏的先进方法在 1.3–1.4 范围内，整合架构优化的尖端方法在 1.4–1.5 范围内 [28]。

面向部署的指标

公平性差距（FG）、鲁棒性分数（RS）和多目标帕累托优化是旨在评估压缩 LLMs 在实际条件下表现的指标，其中伦理考虑、可靠性和资源权衡至关重要。通过捕获人口统计公平性、扰动下的稳定性以及性能 - 效率权衡等维度，这些指标指导高风险应用（包括医疗保健、金融和公共系统）中模型的负责任和有效部署。

多目标帕累托优化

多目标帕累托优化为平衡 LLM 压缩中的竞争目标（如最小化模型大小同时保留准确率）提供了有效的框架。与单指标评估相比，它考虑了多个目标之间的权衡。基于帕累托效率原则，它识别出改进一个方面（如推理延迟）必然导致另一个方面（如准确率）恶化的配置。结果是帕累托前沿 —— 一组非支配解，代表所有考虑目标之间最平衡的权衡 [82,103]。

在 LLMs 的背景下，帕累托优化特别相关，因为它有效捕获模型大小、计算效率和特定任务性能之间的权衡。这种方法对于确保压缩模型满足实际部署的多样化且通常相互冲突的需求至关重要，例如低延迟、高准确率和有限的资源可用性。

帕累托框架通过整合特定领域的约束和部署考虑因素扩展了传统的帕累托分析。它捕获模型大小、计算效率和任务性能之间的相互作用，允许从业者识别平衡多个目标的最佳压缩配置，理解竞争性能方面之间的权衡，做出符合特定部署约束的决策，并评估相对于帕累托前沿的策略有效性。

这种方法在三个关键维度评估压缩权衡：

模型大小（S），理论边界定义为\(0.1S ≤1.0\)\(S=\frac{ params _{compr }}{ params } (11)\)
推理延迟（L），实际范围定义为\(0.2 ≤L ≤1.0\)：\(L=\frac{ inference _{compr }}{ inference } (12)\)
准确率损失（A），可接受范围定义为\(0 ≤A ≤0.05\)\(A= acc - acc_{compr } (13)\)

帕累托分数通过公式（11）、（12）和（13）整合三个评估指标 —— 模型大小、推理延迟和准确率损失，并在公式（14）中正式表达，其中\(w_{i}\)表示分配给每个指标的加权因子。\(Pareto score =\frac{w_{1} S+w_{2} L+w_{3} A}{w_{1}+w_{2}+w_{3}}\)

权重\(w_{i}\)根据特定于部署的优先级选择：

较高的\(w_{1}\)值强调减小模型大小，这在内存受限环境中至关重要。
较高的\(w_{2}\)值优先考虑最小化推理延迟，适合延迟敏感应用。
较高的\(w_{3}\)值确保模型准确率的保留，这对于精度关键任务至关重要。

帕累托优化框架通过联合考虑模型大小、推理延迟和准确率损失，提供了评估模型压缩策略的系统方法。这种方法支持压缩权衡的定量分析，而加权帕累托分数允许适应各种部署场景 —— 从内存和计算受限的边缘设备到高性能计算（HPC）环境。

鲁棒性分数（RS）

模型鲁棒性是 LLM 压缩中的一个关键考虑因素，因为压缩模型通常比未压缩的对应模型对输入变化更敏感。这种增加的敏感性源于压缩期间表示能力的潜在降低，这可能损害模型处理语言变异性并在动态实际环境中保持稳定性能的能力。RS 提供了一个结构化框架，用于评估模型在各种输入扰动下的稳定性，确保压缩模型在噪声、对抗性输入或分布偏移的情况下保持可靠。

在 ML 中，扰动定义为\(x_{perturbed }=x+\delta\)，其中\(δ\)表示应用于输入的扰动的大小和类型。扰动可以以各种形式出现：

随机噪声：向输入数据添加高斯或均匀噪声。
对抗性攻击：故意设计的有针对性修改，以最大化预测误差。
分布偏移：数据分布的系统性变化，如在领域适应场景中遇到的变化。
语义修改：语言变化，包括同义词替换、释义或句子重组。
环境变化：外部因素，如硬件条件、计算约束或输入格式的变化。

公式（15）表达了如何使用 RS 定量评估压缩模型的鲁棒性。该指标捕获模型在受到各种输入扰动时保持预测性能的能力。在这个公式中，P表示原始未扰动模型的性能指标（如准确率或 F1 分数）。术语\(P_{pert _{i}}\)表示模型在第i个扰动场景下的性能。绝对差异\(|P-P_{pert _{i}}|\)量化扰动引起的性能下降。求和内的表达式计算每个受扰动情况下保留的相对性能，对所有N个扰动取平均值提供模型稳定性的全面视图。最后的乘以 100% 将 RS 表示为百分比。\(RS=\frac{1}{N} \sum_{i=1}^{N}\left(1-\frac{\left|\mathcal{P}-\mathcal{P}_{pert _{i}}\right|}{\mathcal{P}}\right) × 100 \%\)

这个公式对于评估压缩模型的部署可靠性至关重要，因为它量化了模型承受噪声、对抗性攻击或分布偏移的能力 —— 这些因素对实际性能至关重要。

压缩视觉模型研究中提供了 RS 评估的具体示例 [104]。作者在各种扰动场景下比较了二值化神经网络（1 位权重模型）与全精度 32 位基线在 CIFAR-10 图像分类任务上的表现。对于每个模型，报告了跨多个攻击的准确率，并对结果取平均以计算每个攻击类别内的 RS（即平均准确率保留率）。

在一组五种白盒对抗性攻击下，全精度模型实现了 32.16% 的 RS，而二值化模型的分数降至 16.53%。这表明压缩模型平均仅保留了其干净数据准确率的约一半，凸显了鲁棒性的显著下降。相比之下，并非所有攻击场景都显示出如此明显的差异。例如，在一组黑盒攻击中 —— 通常不太激进 —— 全精度模型实现了 27.92% 的 RS，而二值化模型为 24.47%。这种较窄的差距表明，扰动的严重程度和性质显著影响鲁棒性结果。虽然压缩模型在轻度或噪声分布偏移下的处理能力可能与未压缩模型相当，但它们在最坏情况（对抗性）条件下明显更脆弱。

公平性差距（FG）

FG 指标解决了 LLM 压缩中的一个关键挑战：确保压缩不会加剧用于评估公平性的不同数据子组之间的性能差异。具体而言，压缩对模型性能的影响应在这些组之间保持一致，避免准确率、预测质量或公平性相关指标（如人口统计 parity、均等几率或机会平等）的不成比例下降。

尽管压缩技术有效减小模型大小和计算开销，但它们可能对某些人群产生不成比例的影响 —— 要么放大现有偏差，要么引入新的偏差。这凸显了 FG 指标的重要性，特别是在公平结果至关重要的高风险应用中，如医疗保健、招聘和财务决策 [105]。

公式（16）正式表达了 FG，它使用选定的公平性指标量化两个受保护组之间模型公平性的差异。具体而言，Metric1和Metric2表示所选公平性指标（如人口统计 parity、均等几率或机会平等）对每个相应组的值。这些值之间的绝对差异反映了压缩可能引入或放大公平性差异的程度：\(FG=\left| Metric _{1}- Metric _{2}\right| . (16)\)

较小的 FG 表明组间公平性有所改善，\(FG=0\)表示根据所选公平性指标实现完全 parity。然而，实现这一理想常常受到公平性标准之间固有紧张关系的阻碍。例如，优化人口统计 parity 可能与均等几率直接冲突，使得同时满足多个目标具有挑战性。因此，模型设计者必须评估和管理这些权衡，以确保平衡符合伦理标准和特定于部署的约束。

为了帮助解释，表 5 提供了 FG 值的标准化阈值。这些阈值定义了三个公平性类别，为评估和解决差异提供了实用基准 [63]。该框架支持从业者识别公平性问题并实施纠正策略，帮助确保压缩 LLMs 在招聘、贷款审批和医疗保健等高风险领域坚持伦理和公平标准。

硬件感知指标

硬件效率指标对于评估压缩模型的实际部署能力至关重要，因为它们捕获计算资源利用率和能耗。这些指标对部署成本、移动设备的电池寿命以及整体系统吞吐量有直接影响。

能效

能效是评估计算性能相对于功耗的关键指标，特别是在电池供电和能量受限环境中，如移动设备和边缘计算平台 [13,35]。它捕获推理准确率与其所需能量之间的权衡，如公式（17）正式定义。\(Energy Efficiency =\frac{ inference accuracy }{ power consumption } \quad (17)\)

公式（18）引入了归一化能效分数，通过量化压缩模型相对于其原始对应模型的能效，促进有意义的跨平台比较。\(EE_{normalized }=\frac{EE_{compr }}{EE} \quad(18)\)

高能效对于在能量受限环境中部署 LLMs 至关重要，在这些环境中，低功耗对于维持设备性能和热稳定性是必要的。表 6 显示，移动平台通常需要归一化能效分数高于 2.0 才能满足严格的电池和热约束。

最近的研究强调了特定于平台的能效目标的重要性，因为不同硬件平台的能耗存在显著差异。

对于压缩 LLMs，实现最佳能效需要仔细使模型架构和压缩技术与底层硬件能力对齐。这种对齐确保有效管理准确率、功耗和部署要求之间的权衡，从而在各种应用场景中实现高效运行 [13,33]。

内存访问效率（MAE）

内存访问效率（MAE）量化有用内存操作（如获取权重和激活）相对于总内存访问的比例。它作为评估压缩模型硬件效率的关键指标，特别是在内存带宽受限的场景中 [106]。

MAE 是 LLM 压缩中的关键因素，因为它突出了硬件级性能瓶颈。它允许从业者调整压缩策略以更好地与硬件约束对齐，从而促进高效且可移植的模型部署。因此，它作为硬件感知优化的关键指标。

公式（19）正式定义了 MAE，它衡量直接有助于计算的内存操作（如获取权重和激活）相对于执行的总内存操作的比例。在这种情况下，有效内存访问表示对模型执行至关重要的访问子集，而总内存访问包括所有内存交互，包括冗余或低效的交互。这些量通常使用 NVIDIA Nsight Compute、Intel VTune 或 PyTorch Profiler 等深度学习（DL）框架分析工具进行测量。\(MAE =\frac{ effective memory accesses }{ total memory accesses }\)

高 MAE 表明内存带宽的有效利用，有助于低延迟和节能推理。相比之下，低效率表明由于冗余或次优内存分配导致的开销。对于压缩 LLMs，保持高 MAE 至关重要，因为剪枝和量化等压缩技术可能会破坏内存访问模式并对性能产生负面影响。

案例研究和实际应用

本节介绍 LLM 压缩的实际案例研究，考察剪枝、量化、知识蒸馏和 NAS 等技术在 BERT 和 GPT 等模型上的应用。每项研究评估对性能、延迟、能效和特定任务准确率的影响，架起理论与实践之间的

桥梁。通过整合实证结果和工业用例，该分析展示了压缩在资源受限环境（从移动和边缘设备到大规模系统）中的价值，同时探讨了为未来部署策略提供信息的权衡和局限性。

物联网和边缘设备中的 LLM 部署

本节探讨 LLM 压缩技术在移动环境中的部署，其中计算能力、能量可用性和延迟的限制尤为关键。通过分析实际应用，强调了剪枝、量化和知识蒸馏等方法如何适应优化移动设备上的 LLMs。

平衡效率和深度：MobileBERT 的经验教训

MobileBERT 例证了压缩技术的有效使用，实现了 4 倍的模型大小减少和 5.5 倍的推理加速，同时保留了 BERT 原始准确率的 99%[6]。实证评估显示，MobileBERT 在实时 NLP 任务（包括情感分析和问答）中优于 DistilBERT 和 TinyBERT 等替代方案 [69]。例如，将其集成到移动搜索应用中，将延迟从 120 毫秒减少到每个查询 22 毫秒，在资源受限设备上实现响应式用户交互。这种改进对于在延迟敏感环境中维持无缝用户体验至关重要。

尽管有其优势，MobileBERT 在需要广泛上下文推理的任务（如文档摘要和对话系统）中表现出局限性。这些缺点凸显了对能够跨层动态分配计算资源的混合压缩策略的需求，从而在效率与复杂语言能力的保留之间取得平衡。NAS 和自适应稀疏性等技术为进一步优化提供了有前景的途径，使压缩模型能够满足多样化的任务需求，而不会导致显著的性能下降。

移动环境中的会话代理

TinyBERT 是 BERT 的压缩变体，展示了结合知识蒸馏和逐层压缩以提高移动环境性能的功效 [69]。通过特定任务蒸馏，TinyBERT 实现了 7.5 倍的模型大小减少和 9.4 倍的推理延迟降低，同时在一系列 NLP 任务中保留了原始 BERT 准确率的 96% 以上。这些特性使其特别适合移动应用，包括会话 AI 系统和语音激活助手。

例如，当部署在中端移动设备上的虚拟助手中时，TinyBERT 实现了每个查询仅 15 毫秒的延迟，支持实时用户交互。其减少的内存占用确保了与配备有限随机存取存储器（RAM）的设备（如旧智能手机和嵌入式系统）的兼容性。此外，其能效有助于延长电池寿命，使其特别适合部署在能量受限环境。

尽管有其优势，TinyBERT 在需要更深上下文理解的任务（如多轮对话管理和抽象摘要）中遇到了局限性。克服这些挑战可能需要集成先进技术，如 NAS 或混合蒸馏，以实现动态资源分配，用于处理更复杂的语言任务。

对 MobileBERT 和 TinyBERT 的分析强调了 LLM 压缩在移动环境中的变革潜力，其中计算资源、能效和延迟等约束至关重要。

物联网工作负载的能量感知压缩

Eyeriss 系统展示了迭代剪枝和量化的有效集成，以优化能效而不影响模型准确率 [14]。实证结果表明，Eyeriss 与基线实现相比实现了两倍的能耗 reduction，使其特别有利于能量受限的物联网应用。例如，在运动检测系统中，Eyeriss 将功耗从 1.2 瓦减少到 0.6 瓦，同时在图像识别任务中保持 98% 的准确率。这种效率对于延长电池寿命和最小化实际物联网部署中的运营成本至关重要。

对 Eyeriss 系统的检查将 LLM 压缩的理论进展与其在物联网环境中的实际部署联系起来。结果强调了压缩技术在优化能效、保持稳健性能以及解决物联网系统固有独特约束方面的变革潜力。此外，观察到的权衡为未来研究提供了关键见解，强调了对能够满足动态物联网应用不断变化的需求的可扩展和自适应策略的需求。

大规模协同过滤增强

在推荐系统快速发展的格局中，数据稀疏性仍然是一个持续的挑战，特别是在协同过滤方法中。本案例研究考察了 LLMRec 框架的实施，该框架利用 LLMs 在 Netflix（世界领先的流媒体平台之一）的实际部署中增强协同过滤 [107]。

Netflix 拥有大量的电影和电视节目目录，由于用户 - 项目交互数据的固有稀疏性，在准确预测用户偏好方面面临挑战。为解决这一问题，采用 LLMRec 框架来增强用户 - 项目交互图并提高推荐准确率。通过集成 LLMs，LLMRec 通过自然语言表示捕获更丰富的用户偏好，实现对用户兴趣的更细致理解。

Netflix 的初始步骤涉及分析历史用户交互以识别潜在模式和偏好。然后使用 LLMs 为用户和项目生成上下文嵌入，通过语义信息丰富交互图。这种方法支持内容描述和用户评论的集成，从而增强用户偏好的表示并提高推荐相关性。

为了评估 LLMRec 框架的有效性，进行了一系列实验，将其性能与最先进的协同过滤基线进行基准测试。采用标准评估指标（包括精度、召回率和 F1 分数）来量化 LLM 增强系统生成的推荐的准确率和相关性。

案例研究结果表明，在 Netflix 采用 LLMRec 框架后，推荐准确率显著提高。通过集成 LLMs，该系统捕获了更丰富、更细致的用户偏好，实现了更个性化的推荐。实证评估显示，与传统协同过滤方法相比，精度提高了 15%，召回率提高了 10%，强调了基于 LLM 的增强在实际推荐系统中的功效。

本案例研究强调了 LLMRec 框架在增强推荐系统内协同过滤方面的潜力，特别是在 Netflix。通过利用 LLMs 的力量，该框架有效解决了数据稀疏性问题，并显著提高了推荐质量，提供了更个性化和准确的用户体验。

与 LLM 压缩在推荐系统中的应用相关的另一个案例是阿里巴巴部署的混合策略，该策略整合了 NAS 和知识蒸馏 [108]。这种方法实现了显著的性能提升，将推理延迟减少 40%，同时保持 92% 以上的 top-1 准确率。例如，阿里巴巴的模型每天处理数十亿次交互，将平均响应时间从 80 毫秒减少到每个查询 45 毫秒 —— 这在光棍节等高流量事件期间至关重要，其中可扩展性至关重要。尽管取得了成功，但该策略严重依赖计算密集型 NAS，每次迭代消耗高达 500 个 GPU 小时。这凸显了可以通过采用更高效的替代方案（如 ProxylessNAS）来缓解的实际限制 [66]。

压缩感知硬件协同设计

NVIDIA 的 TensorRT 平台采用先进的优化技术，包括 PTQ 和混合精度推理，以加速 GPU 环境中的 DL 模型 [67]。通过利用整数量化（INT8），TensorRT 显著降低了计算开销，即使在资源受限的硬件（如 NVIDIA Jetson Orin 设备）上也能实现实时性能。例如，使用 TensorRT 优化的目标检测模型在边缘设备上实现了 3.7 倍的延迟 reduction，与原始浮点版本相比准确率损失不到 1%。

一个显著的应用是 You Only Look Once（YOLO）v5，其中 TensorRT 的动态张量优化在 NVIDIA RTX 3090 GPU 上将推理延迟减少了高达 4.35 倍，在保持检测准确率的同时提高了吞吐量。该平台对 INT8 校准的支持通过使激活与硬件特定阈值对齐进一步优化量化，最大限度地减少执行期间的量化误差 [67]。这些优化在微创手术期间的手术器械检测等时间敏感应用中至关重要，其中精度和低延迟至关重要。

尽管有其优势，TensorRT 对 NVIDIA 硬件的依赖限制了其跨平台适应性。解决这一限制可能涉及开发保留 TensorRT 效率同时扩大部署兼容性的硬件无关框架。此类努力将支持边缘和云环境中更多样化的 AI 场景。

除了 TensorRT 和 NVIDIA GPU 之外，硬件感知优化技术必须针对不同平台的特定约束和能力进行定制，包括边缘设备、TPU、FPGA 和定制 AI 加速器。每个平台在计算效率、内存带宽和能耗之间施加不同的权衡，在设计和部署压缩模型时必须加以解决。

边缘设备（如移动处理器和嵌入式系统）通常在严格的功率和内存约束下运行。为促进高效部署，经常采用激进的压缩方法，如低位量化、结构化剪枝和知识蒸馏。这些技术显著减小模型大小和计算负载，支持实时推理同时节省电池寿命。然而，极端压缩会降低准确率，需要在效率和模型保真度之间进行微调平衡。

相比之下，为并行计算优化的 GPU 和 TPU 受益于结构化稀疏性、张量分解（如奇异值和 CP 分解）和混合精度训练。现代 GPU 通过低精度算术（如 16 位浮点（FP16）、INT8）支持张量核心加速 [例如，16 位浮点（FP16）、INT8]，在保持数值稳定性的同时提高推理速度。专为 DL 设计的 TPU 利用 systolic 阵列架构，使基于矩阵分解的压缩特别有效。

对于这些平台，压缩策略必须经过调整，以最大限度地提高内存吞吐量和计算利用率，同时避免降低性能的不规则访问模式。

FPGA 和定制 AI 加速器引入了额外的复杂性。它们的可重构架构允许针对特定工作负载的定制，支持细粒度并行性和硬件级优化。权重共享、位宽减少和模型分区等技术在这些设置中特别有利。在实时信号处理或工业自动化等领域，基于 FPGA 的推理引擎在功率效率和吞吐量方面可以超越传统处理器。然而，最佳性能需要压缩策略和硬件架构的协同设计，因为次优内存模式可能引入关键性能瓶颈。

除了为每个硬件平台选择适当的压缩技术外，评估其部署影响至关重要。压缩模型通常根据目标硬件的特性在准确率和延迟之间表现出不同的权衡。例如，高度量化的模型 [如 INT8 或 4 位整数（INT4）] 可能在 TPU 和专用移动 AI 加速器上高效执行，但在浮点导向的硬件（如 GPU）上经常遇到准确率下降。同样，非结构化剪枝可以实现高压缩比，但可能导致在支持规则、矢量化操作的架构上内存访问模式效率低下。知识蒸馏虽然有利于提高资源受限环境中的模型稳健性，但引入了额外的训练开销，这可能阻碍在某些场景中的快速部署。

为了缓解这些挑战，已经开发了硬件感知自动调优框架，以动态调整压缩策略以适应目标部署平台。NAS 和基于 RL 的优化等方法可用于应对模型紧凑性和硬件效率之间的权衡。此外，新兴平台（包括谷歌的 Edge TPU、苹果的神经引擎和高通的 Hexagon DSP）越来越多地集成支持自适应压缩的编译器级优化，从而减少对手动微调的需求。

为电子健康记录系统优化的临床 NLP 模型

压缩临床语言模型（CLMs）的最新进展在处理电子健康记录以执行预测任务（如死亡率风险估计、住院时间预测、诊断分类和程序规划）方面显示出显著优势。OptimCLM 框架整合了知识蒸馏、剪枝和量化，以支持医疗环境中的高效部署。通过集成学习、特定领域微调和训练后优化，OptimCLM 实现了高压缩比和加速推理，同时不牺牲预测准确率 [109]。

在实证评估中，OptimCLM 压缩了 BERT-PKD 和 TinyBERT 等模型，与集成教师模型相比，压缩比高达 22.88 倍，推理速度提高 28.7 倍。值得注意的是，在关键临床预测任务中，TinyBERT 的性能下降保持在 5% 以下，BERT-PKD 的性能下降保持在 2% 以下。

这种效率水平支持在资源受限环境（包括农村诊所、救护车和移动健康单位）中的部署，其中延迟、硬件限制和设备上推理至关重要。此外，使用本地部署的模型通过最大限度地减少数据传输并支持敏感健康记录的安全推理，增强了患者隐私。

总的来说，这些案例研究强调了 LLM 压缩在各个领域的变革潜力。从在移动设备上启用 NLP 到优化大型工业系统和临床应用，压缩模型在性能和效率之间提供了引人注目的平衡。通过使模型架构与硬件约束和特定应用需求保持一致，这些技术扩展了 LLMs 在实际部署中的实际适用性。

可扩展和高效 LLM 压缩的拟议路线图

本工作的核心贡献是为高效和高性能压缩 LLMs 的开发提出结构化路线图。该路线图作为指导模型压缩领域持续研究和实际实施的战略框架。通过解决当前限制并整合最先进的方法，拟议框架超越了临时解决方案，提供了可持续和公平部署的连贯愿景。

该路线图基于四个基础支柱 —— 自适应压缩、公平性、可解释性和标准化评估 —— 每个支柱都针对实际适用性的关键维度。这些支柱共同勾勒出提高 LLMs 在各种部署场景中的可扩展性、稳健性和伦理可行性的可行方向。这种整体方法不仅优化性能，还促进负责任和上下文感知的模型设计，从而突出了该贡献的独特性。

自适应压缩：开发能够根据部署环境动态调整大小、架构和计算需求的模型。

实施动态多目标优化框架，平衡延迟、内存使用和准确率，实现针对各种应用的上下文感知模型适应。
设计可模块化架构，可针对边缘设备进行缩减或针对高吞吐量系统进行扩展，确保在不损害核心性能的情况下实现结构灵活性。
引入针对特定领域需求（如医疗、法律或金融任务）的特定任务压缩技术，在优化效率的同时保留模型泛化能力和稳健性。
整合资源感知决策逻辑，允许模型基于运行时硬件分析自主选择压缩模式（如量化级别或剪枝深度）。
成果：建立一类多功能 LLMs，在异构硬件环境中保持高实用性，支持可扩展的实际部署。

压缩中的公平性：减轻压缩期间的偏差放大，确保跨人口统计和特定应用组的公平性能。

整合公平感知压缩策略，如对偏差敏感的剪枝和对抗性去偏，以最大限度地减少模型大小缩减期间引入的差异。开发并采用专为压缩 LLMs 设计的公平性指标，支持整个开发生命周期的严格和一致评估。
与领域专家合作，系统地识别上下文相关的公平性风险，并将这些见解纳入压缩流水线决策。
成果：压缩 LLMs 坚持伦理原则，并在不同用户群体和部署环境中提供公平的预测性能。

增强可解释性：保留或提高可解释性，确保在高风险应用中的透明度、问责制和信任。

设计压缩感知可解释性技术，包括归因方法和结构可视化，考虑剪枝、量化或架构修改引起的变化。
建立压缩后可解释性评估协议，以验证模型解释在优化后仍然连贯且有意义。
定制可解释性方法，以满足医疗保健、金融和法律等领域的特定领域需求，在这些领域中可解释性在法律或伦理上是强制性的。
成果：透明且负责任的压缩 LLMs 能够支持敏感和受监管环境中的决策制定。

标准化评估：建立全面且可重现的基准，以评估压缩 LLMs 的多方面性能。

定义统一的评估标准，整合准确率、推理延迟、公平性、可解释性、能效和硬件兼容性，捕获实际部署需求的全部范围。
开发和维护开源基准套件，支持严格的比较分析，促进可重现性，并加速方法学进展。
在不同领域和部署环境中进行深入的案例研究，以展示基准适用性并揭示实际场景中的压缩权衡。
成果：强大且可扩展的评估框架，标准化评估实践并推动模型压缩领域的进展。

图 11 展示了压缩 LLMs 开发的拟议路线图。每个支柱系统地连接到可行的研究方向和相应的实际实施，最终实现既提高技术效率又提高伦理稳健性的成果。该结构解决了 LLMs 在可扩展性、透明度和公平部署方面的当前限制。作为概念框架和战略参考，该图帮助研究人员和从业者应对设计高效、公平和可解释的实际部署压缩模型的复杂性。

该路线图作为研究人员和从业者的实用指南，提供明确、可行的步骤来开发高效、公平、可解释和稳健的压缩 LLMs。通过解决自适应压缩、公平性、可解释性和标准化评估的核心支柱，它支持能够满足各种实际应用中对高性能解决方案日益增长的需求的模型的开发。

讨论和未来方向

LLM 压缩领域在减小模型大小、提高推理速度和增强能效方面取得了显著进展。这些进步促进了跨各种平台和环境的更广泛部署。然而，关键挑战仍然存在 —— 特别是在激进压缩机制下保持稳健性、公平性和可解释性。本节批判性地评估当前格局，概述核心成就、持续限制和未来研究的战略方向。

LLM 压缩中的持续瓶颈

泛化保留：在实际部署中，保持模型在未见过或分布外数据上有效执行的能力仍然是一个关键挑战。压缩 LLMs 在这种情况下通常表现不佳，限制了它们在动态环境中的稳健性 [4]。虽然剪枝和量化等技术减小了模型大小，但它们经常损害需要精细推理或特定领域理解的任务的性能。知识蒸馏提供了潜在的补救措施，但其成功取决于学生模型忠实地复制教师泛化行为的能力。

训练时间：指训练模型达到令人满意的性能所需的持续时间，这是压缩方法中的一个关键考虑因素。它直接影响在时间敏感或资源受限环境中部署压缩模型的可行性。知识蒸馏通常涉及多步骤过程，其中学生模型模仿教师模型，随后进行微调以恢复潜在的性能损失，从而延长训练持续时间 [69]。同样，剪枝通常需要迭代移除和微调周期，显著增加计算需求 [9]。

可扩展性：指方法或系统随着模型或数据集大小的增加保持效率和性能的能力 —— 这是压缩 LLMs 背景下的关键挑战。尽管 NAS 等技术在架构优化方面有效，但由于其高计算需求和探索广阔参数空间的需求，它们引入了显著的可扩展性问题 [5]。同样，剪枝和量化在应用于异构硬件平台时面临限制，因为稀疏性引起的低效和精度调整通常需要广泛的定制 [63]。这些限制强调了对能够为 LLM 部署实现真正可扩展解决方案的通用且计算高效的方法的需求。

公平性、稳健性和偏差放大：公平性指模型公平对待所有人口统计群体的能力，确保其

预测不会不成比例地有利于或不利于任何特定群体。相比之下，偏差放大发生在模型加剧训练数据中预先存在的偏差时，可能导致有偏见或歧视性的结果。稳健性定义为模型在各种输入、条件和场景（包括对抗性扰动和分布偏移）下保持稳定性能的能力。稳健的模型即使在存在噪声或不可预见的变化时也应保持有效，这对于实际部署中的可靠性至关重要。

在压缩 LLMs 的部署中，确保公平性和稳健性同时减轻偏差放大仍然是一个关键挑战。这些问题在剪枝、量化和知识蒸馏（PQK）等技术中尤为突出，这些技术可能会改变模型内部表示，从而放大现有偏差并降低稳定性 [86]。例如，剪枝可能不成比例地移除对少数群体准确表示至关重要的参数，而量化可能扭曲决策边界，导致不同人口统计群体的性能不均衡。此外，压缩模型通常对对抗性输入和分布偏移表现出更高的敏感性，加剧公平性问题并降低实际环境中的可靠性。解决这些限制需要开发不仅保留预测准确率，而且在部署场景中保持公平性和稳健性的压缩策略。

为了缓解这些挑战，应在整个压缩流水线中整合公平性和稳健性感知策略。在预处理阶段，数据集重新平衡和对抗性去偏等技术可以解决潜在的社会偏差，并在压缩前提高模型稳定性。在压缩过程中，纳入公平性和稳健性导向目标（如目标剪枝和精度感知量化）有助于保留关键特征和决策路径。这些方法降低了特定人口统计群体性能不成比例下降的可能性，并减轻了模型对对抗性扰动的敏感性 [23]。

压缩模型中公平性和稳健性的评估对其开发同样至关重要。人口统计 parity、差异影响、均等几率和对抗性稳健性等定量指标提供了压缩后评估偏差和性能稳定性的标准化方法。Fairlearn 和 AIF360 等工具提供了实施这些评估的综合框架 [110]。同时，微调策略（包括公平感知知识蒸馏和整合对抗性训练的混合方法）已显示出保留公平和稳健行为的功效。例如，公平导向剪枝在不显著降低准确率的情况下将不同人口统计群体的错误率差异减少了 20% 以上 [23]，而公平感知量化技术有效缓解了性别敏感分类任务中的有偏见决策边界 [63]。

未来研究应侧重于开发动态、公平性和稳健性感知压缩技术，这些技术可以基于评估反馈实时适应。整合对偏差敏感的基准和可解释性工具对于揭示压缩如何影响内部决策路径、边缘化群体的表示以及对扰动的脆弱性至关重要。对公平性、稳健性和偏差放大的综合方法对于确保压缩 LLMs 不仅高效而且可靠、符合伦理并适合在医疗保健、金融和法律系统等高风险领域部署至关重要。

硬件特定优化和兼容性：指压缩技术对特定硬件架构的依赖，以实现有意义的效率提升。剪枝和量化等方法通常需要特定于平台的调整，以利用 GPU 和 TPU 等加速器的优势，这些加速器支持低精度操作和优化的内存吞吐量 [64]。然而，这些优化在缺乏此类专门功能的通用处理器或硬件上可能表现不佳，从而限制模型的可移植性和可扩展性。此外，剪枝引入的稀疏模式可能导致不规则内存访问，需要定制硬件或专为利用结构化稀疏性设计的加速器 [41]。这些挑战强调了平衡模型效率与广泛部署兼容性的硬件感知压缩策略的重要性。

应用环境约束：指特定部署环境带来的操作限制，包括资源可用性、延迟要求和能耗。在边缘环境和嵌入式系统中，压缩 LLMs 必须在计算效率和预测性能之间取得平衡 [30]。实时应用（如交互式会话代理或自主系统）需要低延迟响应，这可能会受到某些压缩策略引入的计算开销的阻碍。此外，电池供电设备需要节能执行，需要在不导致显著准确率下降的情况下最小化功耗的压缩方法。

对多样化任务的适应性：指模型在不需要大量重新训练或微调的情况下在各种任务上有效执行的能力。虽然许多压缩技术针对标准基准进行了优化，但它们在需要领域敏感性、上下文理解或多语言稳健性的实际挑战中经常遇到困难 [2]。压缩模型可能会失去关键的表示能力 —— 特别是通过剪枝或激进量化 —— 导致在特定领域问答或低资源语言建模等任务中的性能下降 [34]。

混合压缩方法：整合多种策略（如 PQK）以利用其互补优势并实现更高的效率 - 性能权衡。例如，将知识蒸馏应用于剪枝或量化模型有助于恢复丢失的准确率，提高压缩架构中的泛化能力。然而，这些方法引入了额外的设计和调优复杂性，需要仔细评估以确保跨任务和平台的稳健性。简化这些混合流水线是实现广泛和实际采用的关键步骤，特别是在非专业环境中 [63]。

总之，这些考虑强调了下一代压缩技术解决公平性、稳健性、任务适应性和硬件兼容性的重要性 —— 这些是 LLMs 在实际环境中可扩展、符合伦理和高效部署的关键要素。

评估指标和标准化：缺乏普遍接受的评估基准仍然是推进 LLM 压缩的重大瓶颈。现有框架主要强调准确率或 PPL 等指标，无法捕捉实际部署中遇到的多维度权衡。未来研究必须优先开发整合延迟 - 准确率权衡、内存效率、稳健性、公平性和能耗的整体基准标准。建立这些标准需要学术界和工业界的密切合作，以实现可重现的比较并加速有效压缩策略的采用。

软件 - 硬件协同设计：下一代高效压缩解决方案将越来越依赖软件算法和硬件架构的联合优化。使模型结构与特定硬件（如 GPU、TPU 或专用 AI 加速器）的约束和能力保持一致可以在性能和能效方面产生显著提升。稀疏性感知调度、动态量化和张量核心利用等技术凸显了协同设计的优势。未来工作应侧重于创建能够跨异构平台泛化同时最大化硬件利用率的自适应压缩方案。

公平感知压缩：在法律、金融和医疗保健等敏感领域部署时，确保压缩 LLMs 的公平性尤为重要。对偏差敏感的剪枝、对抗性去偏和公平导向量化等技术为缓解压缩期间的偏差放大提供了有前景的途径。将公平目标直接嵌入训练和评估流水线可以促进公平的模型行为，确保跨群体和用例的人口统计 parity、均等几率或其他公平指标 [111]。

自适应和多目标压缩：自适应压缩框架允许模型根据操作约束动态调整计算成本和表示复杂性。运行时剪枝和动态量化等技术使得能够满足严格的延迟或功率预算，而无需重新训练。多目标优化（特别是基于帕累托的方法）提供了平衡准确率、推理速度和稳健性等竞争目标的原则性方法。研究可扩展和低开销优化算法对于在实际场景中实施此类自适应策略至关重要 [73]。

跨语言和特定领域压缩：当前对通用语言模型的关注在多语言和特定领域应用的性能和效率方面留下了显著差距。随着 BioBERT 和 XLM-R 等模型在专业领域变得必不可少，压缩方法必须考虑语言多样性和领域细微差别 [112]。未来方向包括开发压缩感知迁移学习方法、稀疏适应层和领域条件量化策略，以满足代表性不足的语言和领域的需求。

整合可解释性和可解释性：压缩技术通常掩盖模型内部动态，引发对信任的担忧，特别是在高风险应用中。将可解释性方法（如显著性图、注意力可视化或基于 SHAP 的特征归因）纳入压缩过程有助于保持透明度 [113]。进一步研究应探索压缩感知可解释性指标和可解释设计模型架构，这些架构既支持人类可理解的见解，又支持性能效率。

隐私感知压缩：随着对数据隐私的重视日益增加，特别是在 GDPR 和 HIPAA 等监管框架下，压缩策略的设计必须考虑隐私因素 [114]。联邦学习和安全多方计算等技术可以与压缩相结合，实现分散式模型部署，而不会损害数据完整性。这一研究领域应调查压缩感知隐私保障，最大限度地减少训练和推理中的攻击面。

整合数据压缩和模型压缩：LLM 部署的典型集中式推理架构（如 ChatGPT 等应用所例证）带来了显著的带宽和可扩展性挑战。与计算机视觉或语音识别不同，在计算机视觉或语音识别中，设备上推理很常见，LLMs 通常需要将用户输入传输到强大的服务器。为了缓解网络瓶颈，整合数据压缩和模型压缩呈现出有前景的研究前沿。压缩感知通过利用高维表示（如嵌入或激活）的固有稀疏性提供了引人注目的解决方案 [9,82]。这种技术允许从更少的传输测量中进行有效的信号重建，实现带宽高效部署，而不会损害模型保真度。未来研究可以将这些想法扩展到同时减少传输开销和推理成本的协同优化流水线。

在 LLM 部署的背景下，压缩感知可以在多个阶段战略性地应用，以提高效率和可扩展性：

输入数据压缩：在传输之前，压缩感知可以将自然语言查询等用户输入编码为紧凑的稀疏表示。这显著减小了数据大小，而不会显著损失语义保真度，从而缓解客户端 - 服务器架构中的带宽约束。
中间特征压缩：在推理期间，LLMs 产生高维嵌入和特征图。压缩感知技术可以压缩这些中间表示，减少内存使用和计算负载 —— 这在部分处理在边缘或移动设备上发生的拆分计算场景中特别有益。
与模型压缩的联合优化：压缩感知可以与剪枝和量化等模型压缩策略协同整合。例如，稀疏感知剪枝可以使模型结构与输入数据的压缩稀疏性质保持一致，实现高效推理流水线，同时最小化准确率下降。

稀疏恢复方法已显示出将传输开销减少高达 50%，同时保留超过 95% 的任务准确率（相对于完整模型）[8,46]。此外，将压缩感知与量化相结合在延迟敏感应用中产生了显著的内存节省 [82]。尽管如此，挑战仍然存在。压缩感知的有效性取决于稀疏变换和恢复算法的选择，这可能在编码和解码期间引入计算开销。此外，协调数据压缩和模型压缩需要设计既高效又通用的专门架构和协同训练程序。

未来研究应探索在整个 LLM 生命周期（从输入编码到推理和部署）中嵌入压缩感知的混合框架。关键方向包括优化压缩比、恢复保真度和计算复杂性之间的权衡，以及建立能够原生利用稀疏性的架构。

通过桥接传统上不同的数据压缩和模型压缩领域，压缩感知为可扩展和节能的 LLM 部署提供了有前景的途径。这种方法有可能减轻对集中式基础设施的依赖，并解锁资源受限边缘设备上的实际部署。

迈向硬件对齐和可持续模型优化

现代 LLM 压缩必须与目标硬件平台的约束保持一致 [33,115]。部署环境（包括边缘设备、GPU 和 TPU）塑造了效率和准确率之间的权衡，影响剪枝、量化和蒸馏的应用方式。硬件感知方法针对特定平台性能（如速度、内存、能耗）优化这些技术，同时保持可接受的准确率 [12,41]。下面的讨论概述了每种方法如何适应各种平台以及由此产生的部署权衡。

边缘设备：

精度感知量化和蒸馏：边缘部署需要克服有限功率、内存和计算等硬件约束。压缩技术（特别是低精度量化和知识蒸馏）至关重要 [81]。量化可以将模型大小和延迟减少高达 4 倍；例如，8 位 BERT 保留 99% 的准确率 [79]。精度感知方法进一步使模型与硬件操作（如移动神经处理单元（NPU）上的 INT8 执行）保持一致，最大限度地减少性能下降。

均匀激进量化（如 4 位、二进制）通常会降低准确率。混合精度方法通过为不太敏感的层分配更低的位宽、保留关键计算来缓解这一问题 [31]。知识蒸馏通过训练紧凑的学生模型来模仿更大的教师模型，进一步有助于压缩。例如，DistilBERT 保留 BERT 性能的 97%，同时体积小 40%，速度快 60%[69]。

最近的研究表明，量化 Transformer 在仅配备 64 KB RAM 的微控制器上实现实时性能 [116]，展示了在边缘部署 LLMs 的可行性。这些进步在严格的资源约束下平衡了压缩和准确率，支持响应式 AI 应用。

GPU：结构化剪枝和混合精度加速：

GPU 部署的有效压缩需要与 GPU 执行模式保持一致，特别是在处理稀疏性和数值精度方面。细粒度非结构化剪枝引入不规则内存访问，限制加速 [117]。相比之下，结构化剪枝（移除整个神经元、过滤器或头）产生优化用于 GPU 内核的密集子张量 [118]。NVIDIA 的 2:4 稀疏性（每四个值两个零）就是例证，通过专用张量核心使吞吐量翻倍 [117]。

最近的研究表明，Transformer 中的 2:4 稀疏性将吞吐量提高 30%，延迟减少 20%，微调后准确率损失最小 [119]。虽然结构化剪枝可能会移除更多关键权重，但它通过利用 GPU 特定硬件保证实际加速。GPU 还受益于对低精度算术（如 FP16、16 位脑浮点（BF16）、INT8）的原生支持。降低精度将内存使用减少 2-4 倍，并增加每周期操作数。混合精度执行（如具有 FP32 累积的 FP16 权重）保持准确率，同时标准化加速 [65]。

因此，结合结构化稀疏性和量化为高效 GPU 部署提供了平衡策略，使大型模型（如具有 4 位权重的 13B 模型）能够在单个 GPU 上运行，提高每瓦和每美元的吞吐量。

TPU：架构简化和并行性：

TPU 通过 systolic 阵列针对密集矩阵运算进行了优化，使其对结构化计算具有极高的效率 [115]。不规则稀疏性破坏了这种规律性，导致计算利用率不足。因此，优先选择保留结构一致性的压缩技术，如块稀疏性和低秩分解。

低秩分解通过用更小的密集矩阵替换大矩阵来减少计算，同时保持 TPU 效率。剪枝权重必须重新打包到密集块中，以避免不平衡工作负载导致的性能下降 [115]。通过蒸馏或层减少进行的模型简化可以提高片上内存的适配性，增强能效。然而，过度剪枝可能导致 TPU 核心利用率不足，抵消速度优势 [120]。

TPU 原生支持混合精度（如 BF16），最新版本允许 INT8 推理，减少内存使用并加速计算 [115]。有效的 TPU 压缩通常结合：

结构化剪枝和蒸馏，减少核心间通信。
低精度量化，节省内存并提高吞吐量。
针对密集批处理工作负载的执行优化。

这些策略共同提高了能效和延迟，同时确保并行性和带宽利用率。保持规则的计算模式对于充分利用 TPU 架构至关重要 [15,121]。

结论

本综述综合了用于压缩 LLMs 的最先进技术，强调了它们在提高计算效率、能耗和部署可扩展性方面的核心作用。通过对剪枝、量化、知识蒸馏和 NAS 等方法的批判性分析，很明显这些策略对于使 LLMs 适应实际约束至关重要。它们在移动、边缘和临床环境中的成功应用说明了压缩技术日益成熟和实际价值，标志着向更广泛、更可持续的 AI 使用迈出的重要一步。

所呈现的案例研究强调了对能够根据部署约束动态平衡性能和效率的自适应和混合压缩技术的日益增长的需求。公平感知压缩、增强稳健性的方法和硬件特定优化等新兴进展进一步有助于减轻偏差、加强泛化能力和提高可扩展性。此外，将 NAS 整合到压缩流水线中提供了一条引人注目的途径，可自动进行架构选择并实现硬件感知模型设计，强化了高效和公平的 LLMs 在各种环境中部署的潜力。

尽管取得了这些进展，关键挑战仍然存在。未来研究应优先开发标准化评估框架、轻量级 NAS 技术和跨平台优化策略，以扩展压缩 LLMs 的适用性。解决这些挑战需要学术界和工业界的密切合作，以弥合理论进展与实际部署之间的差距。

通过综合当前研究并为可扩展和高效的 LLM 压缩提出结构化路线图，本综述为推进可扩展和高效的 AI 系统提供了可操作的指导。随着对可访问和可持续 AI 的需求持续增长，这些压缩策略对于确保下一代 LLMs 在各种硬件环境中既强大又实际可部署至关重要。

术语表

AI - 人工智能是计算机科学领域，涉及能够执行通常需要人类智能的任务的系统的设计和开发，如推理、学习、感知和决策制定。
AUC-ROC - 接收器操作特性曲线下面积是衡量分类器区分类别的能力的指标。
AWQ - 激活感知权重量化是一种用于大型语言模型（LLMs）的量化技术，它利用激活信息来指导权重量化过程，提高低位推理期间的准确率。
BERT - 来自 Transformer 的双向编码器表示旨在通过双向读取文本来理解语言的含义。
BF16 - 16 位脑浮点是一种 16 位浮点格式，具有与 FP32 相同的指数范围，但尾数位数更少，允许更快的计算和更低的内存使用，同时精度损失最小。
BLEU - 双语评估替补是一种用于评估机器生成文本与参考翻译的指标，主要用于机器翻译评估。
CLMs - 临床语言模型是专门设计用于处理和分析医疗文本的机器学习（ML）模型，支持诊断预测、程序规划和临床决策支持等任务。
CNN - 卷积神经网络是一类深度神经网络（DNNs），最常用于分析视觉图像。
CoNLL F1 - 自然语言学习会议 F1 分数是用于评估命名实体识别和分块任务的指标，通过将预测的实体跨度与黄金标准注释进行比较来计算。它同时考虑实体类型和边界准确率，在实体识别任务中提供精度和召回率之间的和谐平衡。
CRFM - 斯坦福大学基础模型研究中心是斯坦福大学专注于推进基础模型的研究中心。
DARTS - 可微分架构搜索是一种神经架构搜索（NAS）方法，它使用基于梯度的技术

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla

火山引擎 ADG 社区

所有评论(0)

查看更多评论

Toky丶

@Toky_min

已为社区贡献10条内容

【文献阅读】A review of state-of-the-art techniques for large language model compression

Toky丶

摘要

关键词

引言

LLM 压缩方法的历史背景与实际应用

LLM 的最新优化成果

LLM 压缩的基准测试和评估平台

本研究的贡献和创新点

本文结构

LLM 的压缩技术

基础方法

剪枝

量化

知识蒸馏

神经架构搜索（NAS）

核心压缩策略的比较评估

结构感知适配

自适应截断

基于图的方法

目标优化技术

混合和渐进策略

集成压缩流水线

AutoML 驱动的动态压缩

硬件感知协同设计策略

具有性能保留保证的渐进压缩

混合压缩系统中的权衡管理

指标和性能评估框架

核心评估指标

困惑度（PPL）

准确率

面向效率的指标

稀疏性正则化

延迟 - 准确率权衡（LAT）

参数效率

面向部署的指标

多目标帕累托优化

鲁棒性分数（RS）

公平性差距（FG）

硬件感知指标

能效

内存访问效率（MAE）

案例研究和实际应用

物联网和边缘设备中的 LLM 部署

平衡效率和深度：MobileBERT 的经验教训

移动环境中的会话代理

物联网工作负载的能量感知压缩

大规模协同过滤增强

压缩感知硬件协同设计

为电子健康记录系统优化的临床 NLP 模型

可扩展和高效 LLM 压缩的拟议路线图

自适应压缩：开发能够根据部署环境动态调整大小、架构和计算需求的模型。

压缩中的公平性：减轻压缩期间的偏差放大，确保跨人口统计和特定应用组的公平性能。

增强可解释性：保留或提高可解释性，确保在高风险应用中的透明度、问责制和信任。

标准化评估：建立全面且可重现的基准，以评估压缩 LLMs 的多方面性能。

讨论和未来方向

LLM 压缩中的持续瓶颈

迈向硬件对齐和可持续模型优化

边缘设备：

GPU：结构化剪枝和混合精度加速：

TPU：架构简化和并行性：

结论

术语表

所有评论(0)

温馨提示：您尚未绑定手机号

Toky丶