RTX5060TI 16G运行大语言模型的速度实测 (Qwen3)
测试了RTX5060TI在大预言模型推理方面的性能
·
测试环境介绍:
系统版本 Ubuntu 24.04
驱动版本 575.51.02 - BETA(上市一个月都不更新驱动,只有这版)
显卡型号 RTX5060TI 16G (非boost版本)
CUDA版本 12.8
测试模型 Qwen3 千问3 1.7b到30b-a3b之间的各参数量模型
使用软件 LM Studio
所有模型均完整加载到显存,关闭flash attention,无对话历史记录
所有模型测试问题相同:
请你详细介绍以下广州,对其未来的发展做出判断,将其与珠三角的其他几个主要城市作比较,并给出一首和广州有关的七言律诗。
测试结果如下:
| 模型 | 速度 |
|---|---|
| Qwen3 1.7B Q6_K | 114 tok/sec |
| Qwen3 8B Q4_K_M | 59 tok/sec |
| Qwen3 14B Q4_K_M | 37 tok/sec |
| Qwen3 14B Q6_K | 28 tok/sec |
| Qwen3 30B A3B Q3_K_L | 58 tok/sec |
本来想要测试Qwen3 32B Q3_K_L的,但是显存无法完整装下模型,不具备参考价值。
5060Ti 16G大模型实测:1.7B到32B Qwen3模型推理性能对比 | 30B参数效果惊人?!
笔者在B站发布的视频,更加详细的介绍可以观看视频。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)