llama.cpp跑大模型命令选项以及如何调用GPU算力
-ctx-size:设置上下文窗口--n-gpu-layers:设置调用GPU的层数(但是不知道为什么GPU利用率为0,虽然占用了GPU内存)
·
--ctx-size:设置上下文窗口
--n-gpu-layers:设置调用GPU的层数,调用GPU算力
(1) --verbosity 0
- 输出内容:仅显示最终生成结果。
- 适用场景:生产环境(无需调试)。
(2) --verbosity 1
- 输出内容:
- 基础进度信息(如
llama_model_load加载进度)。 - 显存/内存占用统计。
- 生成速度(tokens/s)。
- 基础进度信息(如
(3) --verbosity 2
- 输出内容:
- 输入文本的分词结果(
input tokens)。 - 上下文缓存状态(
n_past,n_remain)。 - GPU 卸载层数(
offloaded X/Y layers to GPU)。
- 输入文本的分词结果(
(4) --verbosity 3 或更高
- 输出内容:
- 底层张量计算细节(如
ggml算子调用)。 - 注意力机制的具体参数。
- CUDA/Vulkan 内核加载信息。
- 底层张量计算细节(如
- 适用场景:开发者调试模型计算逻辑。
技巧:监控显存和GPU利用率(cmd运行nvidia-smi -l 1 ,每隔1秒刷新)
Memory-Usage 输出显存占用情况
GPU-Util 输出GPU算力利用率
发现:随着大模型卸载到GPU层数的增加,GPU利用率不断提高,但是生成速度先增加后减小,原因可能是CPU和GPU之间通信的成本增加或者负载不均衡导致的生成token速度减小
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)