LLM的动态量化和静态量化

LLM被熟悉的技术除了预训练、后训练外,还有微调和压缩技术,本文主题 模型量化属于压缩技术。

模型量化(Quantization)

将模型中通常使用 浮点数(如 FP32)存储的权重和激活值,转换为 低精度格式(如 INT8、FP16) 的过程,目的是:

  • 减少模型大小
  • 加速推理速度
  • 降低内存和计算资源消耗

同时会引入一定的精度损失。

动态量化(Dynamic Quantization)

定义:

  • 激活值(Activations)的量化参数是在推理时动态计算的,通常基于每个输入的实际数值范围。
  • 权重的量化是提前静态完成的,在模型加载前已经转换为低精度。

特点:

  • 权重量化是静态的(提前完成)
  • 激活量化是动态的(推理时根据输入决定 scale/zero-point)
  • 无需校准数据集
    推- 理时存在额外计算开销(需要实时计算激活的 scale 等)

静态量化(Static Quantization)

定义:

  • 权重和激活值的量化参数都是提前通过校准数据集计算好的,在模型部署前就已经固定下来。
  • 推理时直接使用这些固定的低精度数值进行计算,无需动态计算。

特点:

  • 权重和激活都静态量化
  • 需要校准数据集(用于统计激活值分布,确定 scale 和 zero-point)
  • 推理速度快
  • 模型体积更小

附:

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐