LLM的动态量化和静态量化

LLM被熟悉的技术除了预训练、后训练外，还有微调和压缩技术，本文主题模型量化属于压缩技术。

qq_32205577

359人浏览 · 2025-08-08 13:21:57

qq_32205577 · 2025-08-08 13:21:57 发布

LLM的动态量化和静态量化

LLM被熟悉的技术除了预训练、后训练外，还有微调和压缩技术，本文主题模型量化属于压缩技术。

模型量化（Quantization）

将模型中通常使用浮点数（如 FP32）存储的权重和激活值，转换为低精度格式（如 INT8、FP16）的过程，目的是：

减少模型大小
加速推理速度
降低内存和计算资源消耗

同时会引入一定的精度损失。

动态量化（Dynamic Quantization）

定义：

激活值（Activations）的量化参数是在推理时动态计算的，通常基于每个输入的实际数值范围。
权重的量化是提前静态完成的，在模型加载前已经转换为低精度。

特点：

权重量化是静态的（提前完成）
激活量化是动态的（推理时根据输入决定 scale/zero-point）
无需校准数据集
推- 理时存在额外计算开销（需要实时计算激活的 scale 等）

静态量化（Static Quantization）

定义：

权重和激活值的量化参数都是提前通过校准数据集计算好的，在模型部署前就已经固定下来。
推理时直接使用这些固定的低精度数值进行计算，无需动态计算。

特点：

权重和激活都静态量化
需要校准数据集（用于统计激活值分布，确定 scale 和 zero-point）
推理速度快
模型体积更小

附：

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

4步精通AI动画生成：ComfyUI-AnimateDiff-Evolved终极指南

想要轻松创作出惊艳的AI动画吗？ComfyUI-AnimateDiff-Evolved就是你的完美选择！这款强大的AI动画生成工具让任何人都能快速上手，制作出专业级的动态视频内容。🚀## 什么是ComfyUI-AnimateDiff-Evolved？**ComfyUI-AnimateDiff-Evolved**是AnimateDiff的改进版本，专为ComfyUI设计。它不仅能生成流畅自

火山引擎 ADG 社区

Chat Nio开源AI平台终极指南：5分钟部署多模型对话系统

🚀 **Chat Nio** 是一款强大精美的开源AI聚合聊天平台，支持OpenAI、Claude、讯飞星火、Midjourney、Stable Diffusion、DALL·E、ChatGLM、通义千问、腾讯混元等主流AI模型，提供分布式流式传输、图像生成、对话跨设备同步等完整功能。## ✨ 为什么选择Chat Nio？Chat Nio作为**开源聚合AI平台**的领军者，具有以下核心

火山引擎 ADG 社区

实时人像分割：U-2-Net助力Clipping Camera实现实时拍摄

想要在手机拍摄时自动分离人物与背景，实现专业级的人像分割效果吗？U-2-Net深度神经网络模型为你提供了完美的解决方案！🎯 这款强大的实时人像分割技术已经成功应用于Clipping Camera等热门应用，让普通用户也能享受到AI技术的便利。U-2-Net是一个基于深度学习的显著性目标检测模型，专门用于实时人像分割和背景移除。它采用独特的U型架构设计，能够在保持高精度的同时实现快速处理，完美