转换加速

nlp深度模型加速-onnx,tensorRT
pytorch与tf模型转换

速度优化

分步&并行

单机多卡-分布式策略的选择
pytorch实现层内模型并行

从GPU架构到CUDA

大模型之【对显存计算和通信的挑战】以及目前的一些解决方式【分布式并行,算法架构,内存和计算优化】【参数服务器模式,集和通讯】

大模型训练之并行篇-------数据并行DP/张量并行TP/模型并行(层间层内)/流水并行PP/ZeRO Data Parallel/FSDP

大模型训练之计算量和内存优化篇------混合精度/量化/剪枝/知识蒸馏/FSDP&cpu offload/Gradient Checkpointing

peft

加速优化:peft/Accelerate库,主流框架Megatron/DeepSpeed/Accelerate/Elephas/FairScale/TensorFlowOnSpark

大模型训练之加速篇peft库相关技术

Lora/ReLORA/Vera/Dora/LISA/Lora+/Lora-GA/MoRA)

attn

大模型训练之加速篇 -attention优化【线性化performer/VQ->分块计算MQA/GQA->计算(flash atten/dec)->缓存MLA/pagedAttention】
大模型训练之加速篇 -attention优化–稀疏Attention(sprse, reformer, linformer, Nvidia-StarAttention, 月之暗面MoBA , native sparse attention(NSA)
DSA—deepseek sparse attn

sageattention低比特量化注意力机制,比FlashAttention快5 倍
flash-attention连环问答–softmax 、safe softmax 、online softmax

kv cache

大模型训练之加速篇–减少重复计算–KV-cache优化-- token选择和修剪H2O/StreamLLM/VATP,后处理压缩技术FastGen/DMC/范数,体系结构重设计MQA/GQA/MLA/SnapKV/YOCO

kv cache重要性静态/动态筛选(TidalDecode、GemFilter、InfiniPot、FastKV)、根据head判断Full attention还是local attention(duo-attention)、筛选特殊token(SepLLM)、低秩压缩(ShadowKV)、分组重要性筛选(ChunkKV)等方式

解码

自回归解码-》贪心解码-》投机解码
Speculative Decoding/投机解码

大模型压缩方式【GPU还是CPU】
GPTQ is a quantization method (paper) that quantizes an LLM to reduce its size. It’s fast and introduces minimal degradation to performance.
GGML is another quantization method(Github) that focuses on speeding up with Apple Silicon M1/M2 and Intel CPU.

如何快速估计推理计算量
如果你固定了计算能力,要得到TTFT和Throughput等数据,你需要知道是在Prefilling阶段和Decoding的计算量分别是多少。
一个简单的估计是:
Prefilling_FLOPs = 2 * Batch_size * Prompt_size * Parameters
Decoding_FLOPs_Per_Step = 2 * Batch_size * Parameters
Decoding_FLOPs = 2 * Batch_size * Completion_size * Parameters

精选数据-少量数据达到优化效果

对比经验:ppu上性能测试结论

  • 框架
    SGLang推理性能仍有较大的速度优势;
    最新版本的VLLM推理性能提升较明显,平均速度与sglang接近匠;
    从tp95、tp99等指标看sglang性能更稳定, 阿里云也推荐使用sgglang
    BladeLLM的最近未更新,当前使用的机器暂时无法使用,tensorrt支持的版本较低不满足需求;
  • 速度
    以qwen2.5-14B为例子,对比H20与两卡PPU推理性能
    2卡PPU的性能首token生成速度与H20基本一致,2卡PPU的decode速度高于H20(受益于PPU的大显存),单卡PPU性能略低于H20,但有非常明显的价格优势。
  • 并发量
    两张PPU对标一张H20,显存翻倍,即使不量化也可以承受更高的并发量
  • 问题
    PPU对sglang的在线量化功能支持不好;
    对于量化模型,大多能有性能能方面的提升,但有个别模型量化后比原模型运行速度慢;
    对部分量化模型不支持,如Qwen2.5-14B-vv8a16
  • 价格
    16卡PPU,按两个卡部署一个实例计算
    8卡H20,按一张卡部署一个实例计算,部署成本更高
  1. KV缓存(KV-Caching)
  2. 预测性解码(Speculative Decoding)
  3. FlashAttention
  4. 分页注意力(PagedAttention)
  5. 批量推理(Batch Inference)
  6. 早停解码(Early Exit Decoding)
  7. 并行解码(Parallel Decoding)
  8. 混合精度推理(Mixed Precision Inference)
  9. 量化内核(Quantized Kernels)
  10. 张量并行(Tensor Parallelism)
  11. 流水线并行(Pipeline Parallelism)
  12. 序列并行(Sequence Parallelism)
  13. 图优化(ONNX, TensorRT)
  14. 动态批处理(Dynamic Batching)
  15. 内存卸载(Memory Offloading)
  16. 流式生成(Streaming Generation)
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐