deepseek r1满血版性能监控+告警

本文详细介绍了如何部署和监控deepseekr1模型。首先，通过下载模型、安装vllm并使用vllm部署deepseekr1，完成模型的安装和启动。接着，通过Prometheus进行监控配置，并利用Grafana进行可视化展示。此外，还设置了Prometheus的告警规则，包括文件描述符告警和GPU缓存压力告警，以确保系统稳定运行。最后，通过alertmanager和PrometheusAlert

空~自由

559人浏览 · 2025-05-16 02:30:00

空~自由 · 2025-05-16 02:30:00 发布

一、安装deepseek r1

简单操作步骤（也可以基于容器化部署）：

1、下载deepseek r1 模型

2、安装vllm

3、使用vllm部署deepseek r1

python /home/ubuntu/.local/bin/vllm serve /data/LLM/models/deepseek-r1/ --tensor-parallel-size 8 --port 8011 --trust-remote-code --served-model-name deepseek-r1 --enable-chunked-prefill --max-num-batched-tokens 2048 --gpu-memory-utilization 0.95

4、验证

curl http://localhost:8011/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "deepseek-r1",
        "messages": [
            {
                "role": "user", 
                "content": "你是谁?"
            }
        ]
    }';

查看监控指标：curl http://localhost:8011/metrics

二、Prometheus 接入

安装不做说明，配置添加如下：

  - job_name: "deepseek"
    static_configs:
      - targets: ["192.168.1.6:8011"]

启动Prometheus，浏览器访问

三、grafana可视化展示

添加数据源（配置上面安装的Prometheus），新增仪表盘，监控大致如下图所示：

四、Prometheus告警规则

groups:
- name: node_alert
  rules:
  - alert: 文件描述符告警
    expr: (process_open_fds / process_max_fds) > 0.9
    for: 10m
    labels:
      severity: warning
      category: system
    annotations:
      summary: "文件描述符使用超警戒线 (实例 {{ $labels.instance }})"
      curvalue: "当前值: {{ printf \"%.2f\" $value }}%"
      description: |-
        近10分钟当前文件描述符使用率已达 {{ printf "%.2f" $value }}% {{ "\n" }}
 
        {{- $open_fds_query := printf "process_open_fds{instance=\"%s\"}" $labels.instance | query -}}
        {{- $max_fds_query := printf "process_max_fds{instance=\"%s\"}" $labels.instance | query -}}

        {{- $open_fds := $open_fds_query | first -}}
        {{- $max_fds := $max_fds_query | first -}}

        {{- if $open_fds -}}
        已打开数量: {{ $open_fds | value | printf "%.0f" }}{{ "\n" }}
        {{- end -}}

        {{- if $max_fds -}}
        系统最大限制: {{ $max_fds | value | printf "%.0f" }}{{ "\n" }}
        {{- end -}}

        建议操作:
        1. 立即检查文件描述符泄漏 (参考 lsof -p <PID>)
        2. 调整系统限制 /etc/security/limits.conf
        3. 优化长连接资源释放机制

  - alert: GPU 缓存压力告警
    expr: vllm:gpu_cache_usage_perc >= 95
    for: 5m
    labels:
      severity: high
      category: gpu
    annotations:
      summary: "GPU 显存缓存超载 (模型 {{ $labels.model_name }})"
      curvalue: "当前值: {{ $value | humanizePercentage }}" 
      description: |-
        近5分钟模型 {{ $labels.model_name }}实例{{ $labels.instance }} KV 缓存使用率已持续超过 95% 
        当前值: {{ $value | humanizePercentage }}
        影响风险:
        - 可能触发 OOM 导致服务中断
        - 推理延迟显著增加
        优化方案:
        1. 扩容 GPU 显存资源
        2. 调整 --gpu_memory_utilization 
        3. 启用动态批处理减少缓存碎片

五、告警通知

基于alertmanager + PrometheusAlert+企业微信机器人实现告警通知，这里不做说明，最终实现效果如下：

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大