在这里插入图片描述

2025年6月19日,开源项目lmdeploy迎来了v0.9.0版本更新,此次发布不仅带来了大量的新功能和性能优化,还修复了多个重要bug,并进一步完善了对多种硬件平台和推理框架的支持。本文将围绕本次版本更新的主要内容、功能特性、改进点以及bug修复展开详细介绍,帮助开发者深入理解lmdeploy v0.9.0的技术亮点与实际应用价值。


一、版本概览

lmdeploy作为国产大模型推理部署框架,持续聚焦于高性能模型推理与分布式部署。此次v0.9.0版本更新重点强化了分布式推理能力、量化推理支持以及API服务的灵活性和稳定性,提升了推理效率和框架的可扩展性,为模型开发者和运维人员带来了更为可靠和高效的推理解决方案。


二、核心新功能亮点

1. LMDeploy Distserve 分布式服务

本次版本引入了LMDeploy的分布式推理服务模块(Distserve),大大拓展了对分布式推理场景的支持。通过Distserve,用户可以便捷地搭建跨节点和跨设备的分布式推理环境,提升大模型在多卡多机环境下的运行效率。

2. API服务器终止支持

新增了客户端发送请求结束API服务器进程的能力,方便开发者在自动化测试或调试流程中,快速终止服务器,提升调试效率和系统资源管理效果。

3. 支持动态更新PyTorch后端模型参数

模型训练过程中,API服务器能够实时接收并更新PyTorch后端的模型参数,支持更灵活的在线模型微调和迭代部署,极大增强了模型的可维护性和业务连续性。

4. Qwen3-MoE模型支持EPLB

对Qwen3-MoE(Mixture of Experts混合专家模型)引入了EPLB (Efficient Pipeline Load Balancer)技术,使得多专家模型的推理负载分配更均衡,提升了推理的整体吞吐和稳定性。

5. TurboMind后端参数动态更新

实现了TurboMind推理后端模型参数的在线更新,免去了模型下线重启的过程,满足了持续集成和在线调整的需求。

6. Qwen3-MoE模型动态bf16转fp8量化

支持在运行时将Qwen3-MoE的bf16格式模型动态量化为更节省显存的fp8格式,实现更低显存占用又保持合理准确度的模型推理。

7. 新增internvl3-8b-hf模型支持

扩展了对今年流行的internvl3-8b-hf模型权重的兼容,使开发者能够更快集成和使用该开源模型进行推理工作。

8. TurboMind后端支持FP8 MoE

TurboMind后端新增了全fp8混合专家模型的支持,进一步优化了显存和计算资源的利用,适合GPU资源有限或高并发的推理场景。


三、性能与功能改进详解

1. 显著降低Ray框架内存占用

针对Ray运行时的内存消耗进行了深入优化,减少了不必要的数据复制和缓存占用,降低了分布式调度的资源压力,使得大规模分布式推理场景更加稳定高效。

2. 引入dlblas库提升矩阵计算效率

将底层矩阵计算框架切换或兼容支持了dlblas加速库,获得了更优的计算性能,相较传统BLAS实现,显著提升了前向推理的速度。

3. internlm3 Dense模型支持FP8精度

internlm3 Dense版本支持低精度FP8推理,兼顾速度和推理准确度,推动国产模型高效部署的边界。

4. 增强模型输入灵活性——随机填充输入ID

新增随机填充技术改善批次内变长输入对内存和计算的影响,在保证推理准确的前提下提高吞吐。

5. Ray性能分析支持

集成ray nsys的性能分析功能,便于开发者从GPU层面诊断瓶颈,做好推理性能调优。

6. API服务器启动逻辑优化

服务端的引擎处理循环设计调整为服务器启动事件触发,减少空跑时间和启动延迟。

7. Ascend平台动态形状数据传输优化

为Ascend硬件平台推理引擎增加动态形状传输数据的配置支持,提升兼容性和灵活性。

8. 多API服务器启动支持参数

针对数据并行(dp)大于1的环境,支持同时启动多API服务进程,实现更高并发处理能力。

9. Qwen2.5-VL模型支持AWQ量化

应用AWQ (Adaptive Weight Quantization)技术于Qwen2.5-VL模型,得到更好的模型量化精度/速度平衡。

10. Qwen3 API智能对话增强

完善对Qwen3系列模型接口的细粒度控制,如启用/禁用思考过程参数,提高模型生成结果的适用性和多样性。

11. 负载均衡与微批次联合支持

优化EPLB和微批次推理的共存能力,有效提升分布式推理的资源利用和吞吐效率。

12. Pipeline推理预热机制

实现Pipeline形式推理的预热功能,避免首次请求延迟过高,确保服务响应的流畅。


四、重点Bug修复

1. Ascend平台错误修正

修复了Ascend设备因跨rank重编译带来的兼容性问题,保证分布式推理一致性。

2. Attention算子SM86微调

解决了注意力层在SM86架构上的计算错误,提升模型推理精度。

3. 停用词键值缓存修正

修正停用词相关的KV缓存错误,提升文本生成的语义准确性。

4. 分布式PD Disaggregation的正确执行

修复分布式参数分解PD Disaggregation功能中的多处错误,确保分布式训练与推理流程稳定。

5. 代理服务器心跳稳定性

修复服务器心跳包的发送与接收问题,改进服务发现与状态监控可靠性。

6. 数据并行dp>1场景修复

解决了数据并行参数为大于1时的运行异常,支持更大规模的模型并行推理。

7. Transformers库兼容性更新

修复依赖新版Transformers库时的接口兼容问题,保证了最新库版本的适配。

8. 权重同步与量化算法修正

同步了权重处理流程,纠正了FP8量化中零尺度的问题,避免模型精度下降。

9. Ray日志与命名空间错误修正

解决了Ray分布式环境中日志文件路径和Gradio服务中命名空间缺失的异常。


五、其他生态与工具链优化

1. Docker镜像与文档更新

更新了Ascend 300I Duo设备的官方Docker镜像配置文档,提升环境搭建便捷度。

2. 测试用例及CI流程完善

新增了针对3090 GPU平台的测试流程及Qwen3模型测试用例,提升代码覆盖率和稳定性。

3. 编译与构建工具支持

兼容CUDA 12.4和12.8版本,确保构建链稳定运行。


六、总结与展望

lmdeploy v0.9.0版本在模型分布式推理、动态量化支持、API服务灵活性以及性能优化上进行了多维度深入改进,显著增强了框架的实用性和生产级部署能力。随着国产大模型的快速发展和应用需求的复杂化,lmdeploy的持续迭代将为开发者和企业提供更强大的模型推理平台。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐