使用ray + vllm + deviceplugin + helm做双机并推跑qwen3-235b-a22b模型

本文总结了双机并推部署过程中的关键经验与误区。1) 只需使用自带Ray的vllm镜像，无需额外部署Ray集群；2) Ray-head节点可同时承担计算任务；3) 统一镜像确保环境一致性；4) 建议使用RDMA网络提升通信效率；5) Qwen3-235B需特定版本支持。最后展示了Qwen3-8B多机并推的成功案例，并附有相关技术文档参考。

Free?grit

646人浏览 · 2025-07-18 14:22:43

Free?grit · 2025-07-18 14:22:43 发布

踩坑两天多终于成功部署了双机并推，记录一下几个误区
由于从来没有用过ray，加上教程比较少，基本靠gpt加尝试确定以下几点

可以不用kuberay，可以不用单独跑ray的pod
做双机并推只需要1个镜像，vllm的镜像就可以了，kuberay，ray的单独镜像都不需要，因为vllm镜像内带了简易版本的ray，所以可以把ray和vllm一起跑，声明statfulset来启动ray-head和ray-worker
ray-head并不是只负责任务分发，ray-head作为集群的一员也可以跑模型(也就是说有head的节点不需要再启动一个worker了)，ray-head负责启动vllm serve，ray-worker负责在其他节点/设备上做head分发过来的计算任务。
不用把vllm serve和ray分开的原因有很多，比如，ray对于版本要求很严格，ray和python版本小版本都必须一致，所以在vllm的镜像里面用ray工具就行，保证head和worker都是一个镜像，环境一致。
如果用默认的tcp/ip网络，通信速度会很慢，导致每秒生成的token很少，可以用rdma网络加速。
qwen3-235b需要用vllm:v0.85.post1以上的版本，需要sglang>=0.4.6.post1 or vllm>=0.8.5

下面是使用qwen3-8b做示范成功用ray跑多机并推
在这里插入图片描述

参考文章：
https://huggingface.co/Qwen/Qwen3-235B-A22B/blob/refs%2Fpr%2F23/README.md

https://developer.aliyun.com/article/1539196

https://docs.vllm.ai/en/v0.5.1/serving/distributed_serving.html
https://docs.vllm.ai/en/v0.8.0/getting_started/troubleshooting.html#troubleshooting-incorrect-hardware-driver
https://zhuanlan.zhihu.com/p/1914325502921016042
https://zhuanlan.zhihu.com/p/1902835927396652806
https://zhuanlan.zhihu.com/p/1903867484429353303
https://github.com/QwenLM/Qwen3/issues/1339
https://mp.weixin.qq.com/s/U6X-LaujEG1ebeUUaYk_kg
https://time.geekbang.org/column/article/860426
https://blog.csdn.net/weixin_54510197/article/details/148430313

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大