【“星瑞” O6 评测】 — llm CPU部署对比高通骁龙CPU

随着大模型应用场景的不断拓展，arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用，推动大模型在不同场景落地从推理速度来看：星瑞O6在同样的核心数量时，推理速度更快。而且星瑞O6共有12个CPU核。

农夫山泉2号

1276人浏览 · 2025-04-28 23:45:00

农夫山泉2号 · 2025-04-28 23:45:00 发布

在这里插入图片描述

前言

随着大模型应用场景的不断拓展，arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用，推动大模型在不同场景落地

1. CPU对比

星睿 O6 CPU 采用 Armv9 架构，集成了 Arm®v9 CPU 核心、Arm Immortalis™ GPU 及安谋科技 “周易” NPU 等。其中，“周易” NPU 算力可达 30TOPS，在处理 AI 相关任务时，异构的架构能让 CPU、GPU、NPU 协同工作，加速 AI 模型的运行。骁龙 8 Elite 采用 2+6 架构设计，首次运用专为智能手机打造的第二代自研 Oryon CPU 架构。两颗超大核频率为 4.32GHz，六颗大核频率为 3.53GHz，每个 CPU 丛集都配备了较大缓存，还引入全新的数据时序预取器以及全新的性能内核设计，在通用计算性能上表现强劲。

这里我们让二者通过llama.cpp跑同样模型的推理速度对比

2. 星瑞O6跑llama.cpp

参阅：https://aijishu.com/a/1060000000507877

3. 骁龙8 Elite跑llama.cpp

3.1 依赖安装

## 1.安装[termux](https://termux.dev/en/)app，配置ssh，

## 2.安装编译环境
apt update && apt upgrade -y
apt install git cmake

3.2 不开启klelidiAI优化

cmake -B build
cmake --build build --config Release -j

3.2 验证模型正确性

还是使用“星瑞” O6 评测 —— CPU llama.cpp不同优化速度对比转换的模型

taskset -c 0,3,4,5,6,7 ./build_kle/bin/llama-cli -m asserts/Qwen2.5-3B-Instruct-Q4_0.gguf -c 4096 -t 6 --conversation

打印信息

> hello
Hello! How can I assist you today? Do you have any questions or topics you'd like to discuss?

> 
llama_perf_sampler_print:    sampling time =       2.79 ms /    32 runs   (    0.09 ms per token, 11477.76 tokens per second)
llama_perf_context_print:        load time =     498.94 ms
llama_perf_context_print: prompt eval time =     592.82 ms /     9 tokens (   65.87 ms per token,    15.18 tokens per second)
llama_perf_context_print:        eval time =    1711.00 ms /    22 runs   (   77.77 ms per token,    12.86 tokens per second)
llama_perf_context_print:       total time =    6498.13 ms /    31 tokens
Interrupted by user

3.3 不开启klelidiAI优化的benchmark

taskset -c 0,1,2,3,4,5,6,7 ./build/bin/llama-bench -m asserts/Qwen2.5-3B-Instruct-Q4_0.gguf -p 128 -n 128 -t 8

用[0,2,3,4,5,6,7]7个核心的结果

model	size	params	backend	threads	test	t/s
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	7	pp128	63.59 ± 0.31
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	7	tg128	10.87 ± 0.37

用8个核心的结果

model	size	params	backend	threads	test	t/s
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	8	pp128	72.39 ± 1.43
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	8	tg128	9.99 ± 1.02

3.5 开启kleidiai优化的benchmark

kleidiai已经集成到llama.cpp的后端，只需要编译时给定正确的选项就行。

cmake -B build_kle -DGGML_CPU_KLEIDIAI=ON
cmake --build build_kle --config Release -j

benchmark命令: taskset -c 0,2,3,4,5,6,7 ./build_kle/bin/llama-bench -m asserts/Qwen2.5-3B-Instruct-Q4_0.gguf -p 128 -n 128 -t 7

用[0,2,3,4,5,6,7]7个核心的结果

model	size	params	backend	threads	test	t/s
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	7	pp128	61.55 ± 0.10
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	7	tg128	10.41 ± 0.13

用8个核心的结果

model	size	params	backend	threads	test	t/s
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	8	pp128	69.05 ± 0.88
qwen2 3B Q4_0	1.69 GiB	3.09 B	CPU	8	tg128	9.68 ± 0.16

打印中有load_tensors: CPU_KLEIDIAI model buffer size = 1488.38 MiB和KLEIDIAI = 1表明编译选项正确打开。

4.总结

从推理速度来看：星瑞O6在同样的核心数量时，推理速度更快。而且星瑞O6共有12个CPU核。

5.疑问

从主频来看高通的主频更高，理论上推理速度应该更快。
不知道用高通的qnn cpu后端能否比llama.cpp推理更快。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla