--ctx-size:设置上下文窗口

--n-gpu-layers:设置调用GPU的层数,调用GPU算力

(1) --verbosity 0
  • 输出内容:仅显示最终生成结果。
  • 适用场景:生产环境(无需调试)。
​(2) --verbosity 1
  • 输出内容
    • 基础进度信息(如 llama_model_load 加载进度)。
    • 显存/内存占用统计。
    • 生成速度(tokens/s)。
​(3) --verbosity 2
  • 输出内容
    • 输入文本的分词结果(input tokens)。
    • 上下文缓存状态(n_pastn_remain)。
    • GPU 卸载层数(offloaded X/Y layers to GPU)。
​(4) --verbosity 3 或更高
  • 输出内容
    • 底层张量计算细节(如 ggml 算子调用)。
    • 注意力机制的具体参数。
    • CUDA/Vulkan 内核加载信息。
  • 适用场景:开发者调试模型计算逻辑。

技巧:监控显存和GPU利用率(cmd运行nvidia-smi -l 1 ,每隔1秒刷新)

 Memory-Usage 输出显存占用情况

GPU-Util 输出GPU算力利用率

发现:随着大模型卸载到GPU层数的增加,GPU利用率不断提高,但是生成速度先增加后减小,原因可能是CPU和GPU之间通信的成本增加或者负载不均衡导致的生成token速度减小

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐