随着互联网行业的高速发展,企业 IT 应用环境日趋复杂。几分钟的故障就会严重到用户体验,那么如何有效降低IT故障带来的影响呢?权威数据表明,86%的企业认为建立有效的监控系统和告警系统、提升 IT 的可见性是最佳的方式。
9月1日,国内第一个 SaaS 模式的云告警平台 OneAlert 宣布上线,该平台集成了国内外多种主流的监控和支撑系统,实现一个平台上集中处理所有 IT 事件,从真正意义上提升了 IT 可靠性。OneAlert 是国内应用性能管理领军企业 OneAPM 旗下的产品。
研发背景
其实,在 IT 运维支撑工作中,大多同学都使用了 Zabbix、Nagios 等开源监控工具或者是其他监控工具,他们经常面临着如何配置提醒通知的问题。
- 邮件通知,各工具配置都比较复杂,自建的邮件服务器还可能不太靠谱,而且邮件通知太慢了,主要是邮件客户端的接收延迟。
- 短信通知,复杂度太高,对接运营商短信网关,或者是使用短信猫方式,都需要开发配合。使用短信猫还面临在机房里面信号极其不稳定的问题。
- 其他??想想而已~
OneAlert 是如何解决该问题的呢?在这之前,我们先说一个典故:
OneAlert 解决方案
该典故与监控与告警通知场景如此相似:
- 多渠道:6位信使不同路线。能不能使用更多的渠道,解决邮件或者短信单个路径不靠谱的问题?
- 及时:告警事件消息通知要及时,否则还不如等终端用户投诉电话。
- 通知到位:如果典故里面的消息仅通知到罗斯柴尔德英国家族的门卫同学,那么结果可想而知。同样道理,如果当时负责运维支撑的同学A在睡觉,而没有其他同学收到通知,前面的工作都白费了。
OneAler 是如何解决该问题的呢?下表列出了几个关键点:
OneAlert 优势
从上表看出,OneAlert 通过6个渠道(6个信使)通过多个运营商/服务商(不同线路)通知到位(升级)。OneAlert 在多个方面进行了优化:
部署简单:传统的 Zabbix 或者 Nagios 等监控工具需要复杂配置,而 OneAlert 仅需要5-10分钟即可以完成配置。
更易用:微信已成为我们日常生活和工作标配,OneAlert 让告警事件在拇指尖就可以完成确认处理;优化的新版 APP 也将即将发布。
更可靠:OneAlert 采用不同的运营商和服务商进行信息推送,总有一种渠道通知到位,避免自建邮件服务器或短信猫的单一链路故障问题。
分层通知模式:个人可以设置几种渠道的通知方法,如告警发生后即刻微信/邮件/APP 通知,1分钟后告警无响应,则电话通知。基本上哪怕是大半夜在睡觉,也可以叫醒。如果手机停机?没问题,自动升级提醒其他同学,直到有人响应告警为止。
集成多数主流的监控工具:目前已经支持国内外主流10多种工具告警接入,包括阿里云、腾讯云、VMWare 等云平台,以及 OneAPM、监控宝、Solarwinds、Zabbix、Nagios 等监控工具,而且新的工具还在不断补充中。
作为国内首家云告警平台,OneAlert 与传统的监控方式相比,更便捷、更可靠、更可信赖。据了解,OneAlert 不仅提供事件处理生命周期管理,还提供事件解决后的分析回顾功能,发现事件的趋势,最终帮助企业建立以数据指标驱动的团队文化,预防和持续优化。
我们相信,在「互联网 +」的大潮下,OneAlert 将与运营支撑同学一起,让 IT 业务更稳健可靠,帮助企业有效降低 IT 故障,保证良好的用户体验。