中国的基础网络环境之复杂堪居世界各国之首,随着视频、直播、游戏、语音、电商等流量大、用户体验要求高、用户分布地域广的互联网应用场景,以单点部署方式早已无法满足业务的需求,分布式应用部署方式已经成为保障业务高可用的必然之选。随之而来的可用性监控成为分布式系统的一大难题。
以某顶级IDC服务商同时也是国内最大的第三方独立数据中心运营商为例,该服务商将全国的数据中心划分为三个层次,即以北上广等核心城市为核心层,以互联网大省、骨干城市为骨干层,以二三级城市为边缘层。其客户根据应用等级及用户分布区域,通过在全国范围的科学选点,将应用分别部署在不同层级的城市数据中心,以降低总部署成本,提升用户体验,同时在自身IT运维和客户服务保障过程中积累了丰富的分布式系统高可用监控经验。
简单易用的内部应用系统监控
众所周知,当企业部署了分布式系统,IT设备数量和系统规模就会呈几何级数迅速增长,运维部门规模往往落后于系统增速,而原有单点监控系统的转型并非易事。下面就以这家IDC服务商为例,从内、外两个维度探讨一下高可用IT监控系统的建设。
在内网监控方面,注重的是内部IT设备的可用性。运维部门陆续使用过Smokeping,Open-falcon,cacti之类监控系统,最终都不了了之:Smokeping依赖的包、组件过多,安装搭建配置繁琐,图形参数较多,需要查阅大量文档;Open-falcon部署测试了0.2.0版本,虽然机制不错,但易用性有待提高;cacti主要用于收集历史数据和画图,但在监视大量服务器上跑的服务是否正常、告警方面,虽有插件支持,但效果很不理想。
之后,运维部门选择了入门容易、上手简单、开源免费的Zabbix。Zabbix易于管理和配置,减轻日常管理的工作量,丰富的数据采集方式和API接口可以让用户灵活进行数据采集,而分布式系统架构可以支持监控更多的IT设备。
通过Zabbix监控大网出口对全国ping延迟的综合汇总页面:
用Grafana简单包装一下,可以看到服务器的详细运行数据:
内外兼修的外网高可用监控
云计算、虚拟化技术的广泛应用,分布式系统的后端IT设备和服务的稳定性逐步提高,而复杂的用户网络接入环境、IDC机房链路、CDN加速等环节对业务质量的影响越来越大。很多时候,造成用户体验<a href="http://www.wanjdz.com">安防器材批发佳和服务不可用的原因都是外部的,而这是部署在IT系统内部的Zabbix无法监控的。
因此,运维部门需要一套更准确、更全面的入向监控(外部监控)来保障业务的高可用。监控宝是享誉国内运维圈的IT性能监控神器,通过覆盖全国所有省份和世界主要国家的300多个分布式监测节点,对外部网络链路进行稳定性和可用性的实时监控和秒级告警服务。监控宝支持http/https、ping、udp、tcp、smtp、traceroute等主流数据传输协议,能够准确测量链路质量、CDN效果及DNS状态,为企业的互联网业务进行全网、全地域性能趋势分析。
监控宝除了网站监控外,还包含服务器监控、API监控、中间件和数据库监控,无需部署,无任何侵入式插件,即可获得第一手全面实时的监控数据。同时,监控宝覆盖最全面的告警通知方式,包括邮件、短信、电话语音、App Push、URL回调等。而且,监控宝根据每月监测数据,出具权威的第三方SLA证书,帮助企业对CDN质量、云服务质量和业务质量进行有效评估。
除此之外,监控宝通过API实现Zabbix等监控平台的告警<a href="http://www.wanjdz.com">安防器材批发据的接入和聚合,并在定制化开发的可视化大屏上进行统一监控和统一告警,从而实现IT系统健康和业务监控的统一管理。得益于监控宝和Zabbix,这家中国最大的第三方独立数据中心运营商实现了分布式系统高可用监控的内外兼修。