Qwen3.5-9B Ascend部署指南：如何在华为NPU上快速部署大语言模型

娄卉旎Wylie

318人浏览 · 2026-06-03 08:07:42

娄卉旎Wylie · 2026-06-03 08:07:42 发布

Qwen3.5-9B Ascend部署指南：如何在华为NPU上快速部署大语言模型

【免费下载链接】Qwen3.5-9B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-9B

想要在华为Ascend NPU上快速部署Qwen3.5-9B大语言模型吗？这份完整部署指南将带你一步步完成从环境准备到模型推理的全过程。Qwen3.5-9B作为Qwen系列最新的旗舰多模态模型，采用先进的MoE架构，在保持强大模型能力的同时显著降低推理成本，特别适合在华为NPU上进行高效部署。

📋 准备工作与环境配置

模型权重下载

首先需要获取Qwen3.5-9B的模型权重。建议将模型权重下载至多节点共享目录：

Qwen3.5-9B（BF16版本）：下载模型权重
推荐存储路径：/root/.cache/

两种部署方式选择

根据你的需求，可以选择以下两种部署方式：

🐳 方式一：官方Docker镜像（推荐）

这是最简单快速的部署方法，特别适合新手用户：

从镜像链接下载镜像压缩包

使用Docker加载镜像：

docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar

配置环境变量并运行容器：

export IMAGE=vllm-ascend:qwen3_5-v0-a3
export NAME=vllm-ascend

🔧 方式二：源码构建

如果你需要自定义配置或进行二次开发，可以选择源码构建：

确保环境已安装CANN 8.5.0
参考安装指南安装vllm-ascend
升级相关依赖至主分支版本

🚀 单节点部署实战

A3系列设备部署步骤

对于Atlas A3系列设备，按照以下步骤进行部署：

环境变量配置

在启动服务前，设置必要的环境变量：

export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_BUFFSIZE=1024
export OMP_NUM_THREADS=1
export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOAD
export TASK_QUEUE_ENABLE=1

启动vLLM服务

使用以下命令启动模型服务：

vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-9B/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-size 1 \
    --tensor-parallel-size 4 \
    --max-model-len 5000 \
    --max-num-batched-tokens 16384 \
    --max-num-seqs 128 \
    --gpu-memory-utilization 0.8 \
    --skip-mm-profiling \
    --trust-remote-code \
    --async-scheduling \
    --allowed-local-media-path / \
    --mm-processor-cache-gb 0 \
    --enforce-eager \
    --additional-config '{"enable_cpu_binding":true, "multistream_overlap_shared_expert": true}'

📊 关键参数解析

tensor-parallel-size 4：使用4张NPU卡进行张量并行
max-model-len 5000：支持最大5000个token的上下文长度
gpu-memory-utilization 0.8：NPU内存利用率为80%
async-scheduling：启用异步调度，提升并发性能

🔍 模型测试与验证

文本生成测试

服务启动后，可以通过curl命令测试文本生成功能：

curl http://localhost:8010/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
        "prompt": "The future of AI is",
        "path": "/path/to/model/Qwen3.5-27B/",
        "max_tokens": 100,
        "temperature": 0
        }'

多模态能力测试

Qwen3.5-9B支持原生多模态能力，可以测试图像理解功能：

curl http://localhost:8010/v1/completions \
  -H "Content-Type: application/json" \
    -d '{
        "model": "qwen3.5",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": [
                {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
                {"type": "text", "text": "What is the text in the illustrate?"}
            ]}
        ]
    }'

⚙️ 技术支持特性

Qwen3.5-9B在华为Ascend NPU上支持以下关键特性：

特性	支持状态	说明
BF16精度	✅ 支持	高效推理精度
张量并行	✅ 支持	多卡协同计算
数据并行	✅ 支持	分布式训练
异步调度	✅ 支持	提升并发性能
预填充分块	✅ 支持	优化长序列处理

💡 部署优化建议

性能调优技巧

内存优化：根据实际NPU内存大小调整gpu-memory-utilization参数
并发控制：合理设置max-num-seqs避免资源竞争
批次大小：调整max-num-batched-tokens平衡吞吐和延迟

常见问题解决

环境变量未生效：确保所有环境变量在服务启动前正确设置
模型加载失败：检查模型权重路径和文件权限
NPU设备识别：确认Docker容器正确挂载了NPU设备

🎯 总结

通过本指南，你已经掌握了在华为Ascend NPU上部署Qwen3.5-9B大语言模型的完整流程。无论是使用官方Docker镜像快速部署，还是通过源码构建进行深度定制，都能在华为NPU硬件上获得出色的推理性能。Qwen3.5-9B的MoE架构与华为Ascend NPU的完美结合，为AI应用提供了强大的计算基础。

记住关键步骤：环境准备 → 模型下载 → 服务启动 → 功能测试。按照这个流程，你就能快速搭建起自己的大语言模型推理服务！🚀

【免费下载链接】Qwen3.5-9B 项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/Qwen3.5-9B

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

写了 10 个 Agent 后，我才搞懂“什么不是 Agent“

文章摘要（150字）：本文探讨了AI Agent开发的三个常见误区：1)认为能调用工具就是Agent（实则需感知-决策-执行闭环）；2)高估模型能力边界（需区分模型能力与工程兜底）；3)盲目采用多Agent架构（可能增加复杂度）。通过决策循环图解析Agent各层级的工程边界，强调模型是引擎而系统设计（Harness）才是核心竞争力。文章指出，真正的Agent需要实现自主闭环，而非简单叠加功能，并