lmdeploy v0.9.0 更新详解：性能优化与多项核心特性升级

lmdeploy v0.9.0版本在模型分布式推理、动态量化支持、API服务灵活性以及性能优化上进行了多维度深入改进，显著增强了框架的实用性和生产级部署能力。随着国产大模型的快速发展和应用需求的复杂化，lmdeploy的持续迭代将为开发者和企业提供更强大的模型推理平台。

福大大架构师每日一题

1345人浏览 · 2025-06-21 07:52:30

福大大架构师每日一题 · 2025-06-21 07:52:30 发布

在这里插入图片描述

2025年6月19日，开源项目lmdeploy迎来了v0.9.0版本更新，此次发布不仅带来了大量的新功能和性能优化，还修复了多个重要bug，并进一步完善了对多种硬件平台和推理框架的支持。本文将围绕本次版本更新的主要内容、功能特性、改进点以及bug修复展开详细介绍，帮助开发者深入理解lmdeploy v0.9.0的技术亮点与实际应用价值。

一、版本概览

lmdeploy作为国产大模型推理部署框架，持续聚焦于高性能模型推理与分布式部署。此次v0.9.0版本更新重点强化了分布式推理能力、量化推理支持以及API服务的灵活性和稳定性，提升了推理效率和框架的可扩展性，为模型开发者和运维人员带来了更为可靠和高效的推理解决方案。

二、核心新功能亮点

1. LMDeploy Distserve 分布式服务

本次版本引入了LMDeploy的分布式推理服务模块（Distserve），大大拓展了对分布式推理场景的支持。通过Distserve，用户可以便捷地搭建跨节点和跨设备的分布式推理环境，提升大模型在多卡多机环境下的运行效率。

2. API服务器终止支持

新增了客户端发送请求结束API服务器进程的能力，方便开发者在自动化测试或调试流程中，快速终止服务器，提升调试效率和系统资源管理效果。

3. 支持动态更新PyTorch后端模型参数

模型训练过程中，API服务器能够实时接收并更新PyTorch后端的模型参数，支持更灵活的在线模型微调和迭代部署，极大增强了模型的可维护性和业务连续性。

4. Qwen3-MoE模型支持EPLB

对Qwen3-MoE（Mixture of Experts混合专家模型）引入了EPLB (Efficient Pipeline Load Balancer)技术，使得多专家模型的推理负载分配更均衡，提升了推理的整体吞吐和稳定性。

5. TurboMind后端参数动态更新

实现了TurboMind推理后端模型参数的在线更新，免去了模型下线重启的过程，满足了持续集成和在线调整的需求。

6. Qwen3-MoE模型动态bf16转fp8量化

支持在运行时将Qwen3-MoE的bf16格式模型动态量化为更节省显存的fp8格式，实现更低显存占用又保持合理准确度的模型推理。

7. 新增internvl3-8b-hf模型支持

扩展了对今年流行的internvl3-8b-hf模型权重的兼容，使开发者能够更快集成和使用该开源模型进行推理工作。

8. TurboMind后端支持FP8 MoE

TurboMind后端新增了全fp8混合专家模型的支持，进一步优化了显存和计算资源的利用，适合GPU资源有限或高并发的推理场景。

三、性能与功能改进详解

1. 显著降低Ray框架内存占用

针对Ray运行时的内存消耗进行了深入优化，减少了不必要的数据复制和缓存占用，降低了分布式调度的资源压力，使得大规模分布式推理场景更加稳定高效。

2. 引入dlblas库提升矩阵计算效率

将底层矩阵计算框架切换或兼容支持了dlblas加速库，获得了更优的计算性能，相较传统BLAS实现，显著提升了前向推理的速度。

3. internlm3 Dense模型支持FP8精度

internlm3 Dense版本支持低精度FP8推理，兼顾速度和推理准确度，推动国产模型高效部署的边界。

4. 增强模型输入灵活性——随机填充输入ID

新增随机填充技术改善批次内变长输入对内存和计算的影响，在保证推理准确的前提下提高吞吐。

5. Ray性能分析支持

集成ray nsys的性能分析功能，便于开发者从GPU层面诊断瓶颈，做好推理性能调优。

6. API服务器启动逻辑优化

服务端的引擎处理循环设计调整为服务器启动事件触发，减少空跑时间和启动延迟。

7. Ascend平台动态形状数据传输优化

为Ascend硬件平台推理引擎增加动态形状传输数据的配置支持，提升兼容性和灵活性。

8. 多API服务器启动支持参数

针对数据并行（dp）大于1的环境，支持同时启动多API服务进程，实现更高并发处理能力。

9. Qwen2.5-VL模型支持AWQ量化

应用AWQ (Adaptive Weight Quantization)技术于Qwen2.5-VL模型，得到更好的模型量化精度/速度平衡。

10. Qwen3 API智能对话增强

完善对Qwen3系列模型接口的细粒度控制，如启用/禁用思考过程参数，提高模型生成结果的适用性和多样性。

11. 负载均衡与微批次联合支持

优化EPLB和微批次推理的共存能力，有效提升分布式推理的资源利用和吞吐效率。

12. Pipeline推理预热机制

实现Pipeline形式推理的预热功能，避免首次请求延迟过高，确保服务响应的流畅。

四、重点Bug修复

1. Ascend平台错误修正

修复了Ascend设备因跨rank重编译带来的兼容性问题，保证分布式推理一致性。

2. Attention算子SM86微调

解决了注意力层在SM86架构上的计算错误，提升模型推理精度。

3. 停用词键值缓存修正

修正停用词相关的KV缓存错误，提升文本生成的语义准确性。

4. 分布式PD Disaggregation的正确执行

修复分布式参数分解PD Disaggregation功能中的多处错误，确保分布式训练与推理流程稳定。

5. 代理服务器心跳稳定性

修复服务器心跳包的发送与接收问题，改进服务发现与状态监控可靠性。

6. 数据并行dp>1场景修复

解决了数据并行参数为大于1时的运行异常，支持更大规模的模型并行推理。

7. Transformers库兼容性更新

修复依赖新版Transformers库时的接口兼容问题，保证了最新库版本的适配。

8. 权重同步与量化算法修正

同步了权重处理流程，纠正了FP8量化中零尺度的问题，避免模型精度下降。

9. Ray日志与命名空间错误修正

解决了Ray分布式环境中日志文件路径和Gradio服务中命名空间缺失的异常。

五、其他生态与工具链优化

1. Docker镜像与文档更新

更新了Ascend 300I Duo设备的官方Docker镜像配置文档，提升环境搭建便捷度。

2. 测试用例及CI流程完善

新增了针对3090 GPU平台的测试流程及Qwen3模型测试用例，提升代码覆盖率和稳定性。

3. 编译与构建工具支持

兼容CUDA 12.4和12.8版本，确保构建链稳定运行。

六、总结与展望

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla