ktransformers 部署deepseek满血版

备注：只有 Intel® Data Center GPU Max 系列和 Intel® Data Center GPU Flex 请安装 data Center GPU
其他系列如 Intel® Arc™ A-series 一律安装client GPU (好消息：安装 client GPU 比安装 data Center GPU 要容易的多)

2、安装Intel oneAPI

Get the Intel® oneAPI Base Toolkit

注意安装完后一定要在终端使用以下两条命令，否则llama.cpp 识别不到SYCL后端：

sudo apt update sudo apt -y install cmake pkg-config build-essential

四、ktransformers 版本：

ktransformers/doc/en/xpu.md at main · kvcache-ai/ktransformers xpu源码编译指南

ktransformers/doc/en/Docker_xpu.md at main · kvcache-ai/ktransformers docker 安装指南

Introduction - Ktransformers 官方文档

五、研究成果

使用 deepseek-r1-671b Q4_K_M ，单GPU版速度为3.0~ 3.7 t/s，4GPU版速度为0.5 t

4GPU版配置文件：

# === Embed Tokens ===
- match:
    name: "^model.embed_tokens"
  replace:
    class: "default"
    kwargs:
      generate_device: "cpu"
      prefill_device: "cpu"

# === Rotary Embedding ===
- match:
    name: "^model\\.layers\\.(0|[1-9]|1[0-4])\\."
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RotaryEmbedding
  replace:
    class: ktransformers.operators.RoPE.YarnRotaryEmbeddingV3
    kwargs:
      generate_device: "xpu:0"
      prefill_device: "xpu:0"

- match:
    name: "^model\\.layers\\.(1[5-9]|2[0-9])\\."
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RotaryEmbedding
  replace:
    class: ktransformers.operators.RoPE.YarnRotaryEmbeddingV3
    kwargs:
      generate_device: "xpu:1"
      prefill_device: "xpu:1"

- match:
    name: "^model\\.layers\\.(3[0-9]|4[0-4])\\."
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RotaryEmbedding
  replace:
    class: ktransformers.operators.RoPE.YarnRotaryEmbeddingV3
    kwargs:
      generate_device: "xpu:2"
      prefill_device: "xpu:2"

- match:
    name: "^model\\.layers\\.(4[5-9]|5[0-9]|60)\\."
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RotaryEmbedding
  replace:
    class: ktransformers.operators.RoPE.YarnRotaryEmbeddingV3
    kwargs:
      generate_device: "xpu:3"
      prefill_device: "xpu:3"

# === Linear Layers (including kv_b_proj) ===
- match:
    name: "^model\\.layers\\.(0|[1-9]|1[0-4])\\..*"
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformersLinear
    kwargs:
      generate_device: "xpu:0"
      prefill_device: "xpu:0"
      generate_op: "KLinearIPEXLLM"
      prefill_op: "KLinearIPEXLLM"

- match:
    name: "^model\\.layers\\.(1[5-9]|2[0-9])\\..*"
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformersLinear
    kwargs:
      generate_device: "xpu:1"
      prefill_device: "xpu:1"
      generate_op: "KLinearIPEXLLM"
      prefill_op: "KLinearIPEXLLM"

- match:
    name: "^model\\.layers\\.(3[0-9]|4[0-4])\\..*"
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformersLinear
    kwargs:
      generate_device: "xpu:2"
      prefill_device: "xpu:2"
      generate_op: "KLinearIPEXLLM"
      prefill_op: "KLinearIPEXLLM"

- match:
    name: "^model\\.layers\\.(4[5-9]|5[0-9]|60)\\..*"
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformersLinear
    kwargs:
      generate_device: "xpu:3"
      prefill_device: "xpu:3"
      generate_op: "KLinearIPEXLLM"
      prefill_op: "KLinearIPEXLLM"

# === MLP ===
- match:
    name: "^model\\.layers\\.(0|[1-9]|1[0-4])\\.mlp$"
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3MoE
  replace:
    class: ktransformers.operators.experts.KDeepseekV3MoE
    kwargs:
      generate_device: "xpu:0"
      prefill_device: "xpu:0"

- match:
    name: "^model\\.layers\\.(1[5-9]|2[0-9])\\.mlp$"
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3MoE
  replace:
    class: ktransformers.operators.experts.KDeepseekV3MoE
    kwargs:
      generate_device: "xpu:1"
      prefill_device: "xpu:1"

- match:
    name: "^model\\.layers\\.(3[0-9]|4[0-4])\\.mlp$"
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3MoE
  replace:
    class: ktransformers.operators.experts.KDeepseekV3MoE
    kwargs:
      generate_device: "xpu:2"
      prefill_device: "xpu:2"

- match:
    name: "^model\\.layers\\.(4[5-9]|5[0-9]|60)\\.mlp$"
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3MoE
  replace:
    class: ktransformers.operators.experts.KDeepseekV3MoE
    kwargs:
      generate_device: "xpu:3"
      prefill_device: "xpu:3"

# === MoE Gate ===
- match:
    class: ktransformers.models.modeling_deepseek_v3.MoEGate
  replace:
    class: ktransformers.operators.gate.KMoEGateIPEXLLM
    kwargs:
      generate_device: "xpu:0"
      prefill_device: "xpu:0"

# === MoE Experts ===
- match:
    name: "^model\\.layers\\.(0|[1-9]|1[0-4])\\.mlp\\.experts$"
  replace:
    class: ktransformers.operators.experts.KTransformersExperts
    kwargs:
      prefill_device: "xpu:0"
      prefill_op: "KExpertsTorch"
      generate_device: "cpu"
      generate_op: "KExpertsCPU"
      out_device: "xpu:0"
  recursive: False

- match:
    name: "^model\\.layers\\.(1[5-9]|2[0-9])\\.mlp\\.experts$"
  replace:
    class: ktransformers.operators.experts.KTransformersExperts
    kwargs:
      prefill_device: "xpu:1"
      prefill_op: "KExpertsTorch"
      generate_device: "cpu"
      generate_op: "KExpertsCPU"
      out_device: "xpu:1"
  recursive: False

- match:
    name: "^model\\.layers\\.(3[0-9]|4[0-4])\\.mlp\\.experts$"
  replace:
    class: ktransformers.operators.experts.KTransformersExperts
    kwargs:
      prefill_device: "xpu:2"
      prefill_op: "KExpertsTorch"
      generate_device: "cpu"
      generate_op: "KExpertsCPU"
      out_device: "xpu:2"
  recursive: False

- match:
    name: "^model\\.layers\\.(4[5-9]|5[0-9]|60)\\.mlp\\.experts$"
  replace:
    class: ktransformers.operators.experts.KTransformersExperts
    kwargs:
      prefill_device: "xpu:3"
      prefill_op: "KExpertsTorch"
      generate_device: "cpu"
      generate_op: "KExpertsCPU"
      out_device: "xpu:3"
  recursive: False

# === Self Attention ===
- match:
    name: "^model\\.layers\\..*\\.self_attn$"
  replace:
    class: ktransformers.operators.attention.KDeepseekV2Attention
    kwargs:
      generate_device: "xpu"
      prefill_device: "xpu"
      absorb_for_prefill: False

# === LayerNorm ===
- match:
    class: ktransformers.models.modeling_deepseek_v3.DeepseekV3RMSNorm
  replace:
    class: ktransformers.operators.layernorm.KDeepseekRMSNormIPEXLLM
    kwargs:
      generate_device: "xpu"
      prefill_device: "xpu"

# === Final lm_head ===
- match:
    name: "^lm_head$"
    class: torch.nn.Linear
  replace:
    class: ktransformers.operators.linear.KTransformersLinear
    kwargs:
      generate_device: "xpu:3"
      prefill_device: "xpu:3"
      generate_op: "KLinearIPEXLLM"
      prefill_op: "KLinearIPEXLLM"

# === Final Norm + Layers on xpu:3 ===
- match:
    name: "(^model\\.layers\\.(4[5-9]|5[0-9]|60)\\.)|(^model\\.norm)"
  replace:
    class: "default"
    kwargs:
      generate_device: "xpu:3"
      prefill_device: "xpu:3"

# === Top-Level Model Wrapper ===
- match:
    name: "^model$"
  replace:
    class: ktransformers.operators.models.KDeepseekV2Model
    kwargs:
      per_layer_prefill_intput_threshold: 0

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla