LLM的动态量化和静态量化
LLM被熟悉的技术除了预训练、后训练外,还有微调和压缩技术,本文主题 模型量化属于压缩技术。
·
LLM的动态量化和静态量化
LLM被熟悉的技术除了预训练、后训练外,还有微调和压缩技术,本文主题 模型量化属于压缩技术。
模型量化(Quantization)
将模型中通常使用 浮点数(如 FP32)存储的权重和激活值,转换为 低精度格式(如 INT8、FP16) 的过程,目的是:
- 减少模型大小
- 加速推理速度
- 降低内存和计算资源消耗
同时会引入一定的精度损失。
动态量化(Dynamic Quantization)
定义:
- 激活值(Activations)的量化参数是在推理时动态计算的,通常基于每个输入的实际数值范围。
- 权重的量化是提前静态完成的,在模型加载前已经转换为低精度。
特点:
- 权重量化是静态的(提前完成)
- 激活量化是动态的(推理时根据输入决定 scale/zero-point)
- 无需校准数据集
推- 理时存在额外计算开销(需要实时计算激活的 scale 等)
静态量化(Static Quantization)
定义:
- 权重和激活值的量化参数都是提前通过校准数据集计算好的,在模型部署前就已经固定下来。
- 推理时直接使用这些固定的低精度数值进行计算,无需动态计算。
特点:
- 权重和激活都静态量化
- 需要校准数据集(用于统计激活值分布,确定 scale 和 zero-point)
- 推理速度快
- 模型体积更小
附:
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)