监控系统一直在报警,但运维人员却不知道;或者知道了,但不知道该怎么处理。这种情况你们遇到过吗?反正我是见得太多了。

最近帮一个电商客户做ITIL咨询,他们就遇到了这个典型问题。每天几百条告警信息,但真正需要紧急处理的可能就那么几条。运维团队整天被各种告警搞得焦头烂额,关键问题反而容易被淹没。说白了,就是监控系统和事件管理流程没有打通。

ITIL4 事件管理流程的正确实施方式(附全套实施文档)

现状有多乱?我给你们举几个例子

去年我在一家制造业企业待了两个月,他们的情况特别典型。监控系统用的是Zabbix,ITIL工具用的ServiceNow,两套系统完全独立运行。

每天早上运维人员要做的第一件事,就是登录Zabbix查看昨晚有哪些告警,然后手工在ServiceNow里创建事件工单。一个人花在这种重复劳动上的时间,每天至少1小时。5个运维人员,就是5个小时的人力浪费。

更要命的是,手工操作容易出错。我亲眼看到过,一个CPU告警被手工录入成了内存告警,结果技术人员排查了半天方向都是错的。

还有个银行客户,他们的问题更严重。监控告警只能通过邮件和短信通知,没有统一的事件管理平台。结果就是告警信息散落在各个邮箱里,谁处理了、怎么处理的、有没有彻底解决,完全没有记录。

集成到底能带来什么好处?

说实话,刚开始我也觉得这种集成有点复杂,不如分开管理简单。但做了几个项目下来,发现效果确实明显。

第一个好处是自动化。监控系统发现问题后,自动在ITIL平台创建事件工单,设置优先级,分配给相应的技术团队。这个过程完全不需要人工干预。

我记得那个电商客户集成完成后,运维人员每天早上不用再手工录工单了。省下来的时间可以用来分析问题根因,或者做一些预防性维护工作。

第二个好处是信息完整性。告警的详细技术信息直接带入到事件工单中,包括告警时间、影响范围、相关日志等。技术人员接到工单就能快速了解问题背景,不用再去监控系统里翻历史记录。

第三个好处是流程标准化。所有的IT事件都进入统一的处理流程,有明确的升级路径和处理时限。不会再出现高优先级问题被遗漏的情况。

具体怎么做集成?我的一些经验

告警分级要先理清楚

这是第一步,也是最重要的一步。监控系统的告警级别和ITIL的事件优先级要有明确的对应关系。

我一般建议这样映射:

  • 监控系统的"灾难"级别 → ITIL的P1优先级(1小时响应)

  • "高"级别 → P2优先级(4小时响应)

  • "一般"级别 → P3优先级(8小时响应)

  • "警告"级别 → P4优先级(24小时响应)

当然了,具体的对应关系要根据业务实际情况调整。我见过有些企业把所有告警都设成P1,结果就是没有真正的P1了。

重复告警要能够合并

这个功能特别重要。同一个故障往往会触发多个告警,如果每个告警都创建一个事件工单,运维人员就被淹死了。

我们一般会设置一些规则:

  • 相同主机的相同类型告警,15分钟内只创建一个工单

  • 相关联的系统组件告警,可以合并到一个主工单下

  • 告警恢复后,工单状态自动更新

信息传递要足够丰富

监控告警创建的事件工单,信息要足够详细。我通常要求至少包含:

  • 告警时间和持续时长

  • 影响的业务系统和用户范围

  • 相关的技术指标数据

  • 可能的处理建议

有次给一个客户做集成,他们的告警工单就写了一句"服务器异常"。技术人员接到工单还是两眼一抹黑,根本不知道从哪儿下手。

自动分配要科学合理

不同类型的告警要能自动分配给对应的技术团队。这需要事先建立好映射关系:

  • 网络设备告警 → 网络运维组

  • 数据库告警 → DBA团队

  • 应用程序告警 → 开发运维组

但这里有个坑,就是边界问题。比如数据库连接异常,可能是数据库问题,也可能是网络问题,还可能是应用程序问题。

我的建议是,模糊的情况先分配给一个主要负责的团队,如果需要协作,再通过工单流转机制处理。

实施过程中的几个坑

技术层面的坑

最常见的就是接口问题。监控系统和ITIL工具的API接口,往往没有完全对应的字段。我就遇到过监控系统的告警级别是数字(1,2,3,4),而ITIL工具的优先级是文字(低、中、高、紧急),需要做转换。

还有就是数据格式问题。有些监控系统的告警信息是XML格式,有些是JSON格式,甚至还有纯文本的。集成的时候要做好数据解析和格式转换。

流程层面的坑

最大的坑就是流程不清楚。技术团队往往关注的是技术实现,但实际上流程设计更重要。

谁来负责告警规则的维护?工单分配错了怎么办?告警恢复了但工单还没关闭怎么处理?这些问题不提前想清楚,后面就会很乱。

人员层面的坑

说句实话,不是所有人都欢迎这种变化。有些运维人员习惯了原来的工作方式,觉得新流程太麻烦。

我的经验是,要多沟通,让大家看到集成带来的好处。比如减少了重复劳动,提高了处理效率,减少了遗漏风险等等。

选择什么样的技术方案?

这个要看具体情况了。如果你们的监控系统和ITIL工具都有标准的API接口,那用API直接集成是最好的选择。

如果接口能力有限,可以考虑用中间件的方式。比如企业服务总线(ESB)或者消息队列,做一个转换层。

实在不行,也可以用数据库同步的方式。监控系统把告警写到共享数据库,ITIL工具定时去读取并创建工单。虽然实时性差一些,但也能解决问题。

我最近接触了几个企业,他们用的是开源的EventBridge或者商业的MuleSoft来做集成,效果都还不错。

成功的关键是什么?

做了这么多年,我觉得技术不是最难的,最难的是管理和流程。

首先要有明确的负责人。这种跨系统的集成项目,涉及监控团队、ITIL团队、开发团队等多个部门,没有强有力的项目负责人,很容易扯皮。

其次是要有清晰的成功标准。什么叫集成成功?是告警工单自动创建率达到95%?还是事件处理效率提升50%?标准要提前定义清楚。

最后是要有持续优化的机制。系统上线只是开始,后续的规则调优、流程完善才是关键。

我的一点建议

如果你们正在考虑做这种集成,我建议先从一个小范围试点开始。比如选择一个核心业务系统,把它的监控告警和事件管理先打通,积累经验后再逐步扩展。

另外就是要做好预期管理。这种集成项目的收益往往不是立竿见影的,需要一个磨合期。前期可能还会增加一些工作量,但长期看绝对是值得的。

最后想说的是,工具和技术都在不断发展,现在已经有一些AI辅助的智能告警分析工具了。未来的监控告警系统会更智能,能够自动识别告警的重要性,甚至提供处理建议。

你们现在的监控和事件管理是分离的吗?有没有遇到过类似的问题?欢迎留言分享,互相学习一下经验。

为什么90%的企业在ITIL4资产管理上都栽了跟头?血的教训告诉你真相

95%的企业都在用错ITIL4服务请求管理,真正落地的只做对了这5件事(附实施工具包)

ITIL4服务台建设:为什么80%的企业都建错了?(附实施文档)

ITIL4 的监控和事态管理流程(附全套实施文档)

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐