第五十六篇-Ollama+V100+Qwen3:32B-性能
摘要:在CentOS-7系统环境下,使用Tesla V100-32G显卡运行ollama测试qwen3:32b模型。测试显示,该配置下模型推理速度为25.34 tokens/s,显存占用22.3GB/32GB,GPU利用率达94%。虽然V100显卡已非最新,但测试结果表明其性能仍能满足个人使用需求,特别是在32GB大显存支持下能有效处理大模型推理任务。整个测试过程耗时约1分6秒,完成了1653个提
·
环境
系统:CentOS-7
CPU : E5-2680V4 14核28线程
内存:DDR4 2133 32G * 2
显卡:Tesla V100-32G【PG503】 (水冷)
驱动: 535
CUDA: 12.2
启动测速
ollama run qwen3:32b --verbose
你好,介绍下硬盘,2000字以内
速度
total duration: 1m6.230097042s
load duration: 56.553046ms
prompt eval count: 1653 token(s)
prompt eval duration: 2.768600537s
prompt eval rate: 597.05 tokens/s
eval count: 1605 token(s)
eval duration: 1m3.326245922s
eval rate: 25.34 tokens/s
GPU
Thu Dec 4 23:26:12 2025
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 Tesla PG503-216 Off | 00000000:04:00.0 Off | 0 |
| N/A 39C P0 256W / 300W | 22318MiB / 32768MiB | 94% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
总结
1.V100速度还是很好的,个人使用。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)