全面洞悉轻松监控的IT生命保障系统

信息化观察网
李宇翔
我们看到宇航员远离地球的时候,他们所穿的宇航服并不是单纯我们肉眼所看到的一件衣服而已,它更重要的是宇航员的生命保障系统;而我们的监控系统最后所要达到的目的就是成为清晰化、智能化的IT生命保障系统,实现IT...

我们看到宇航员远离地球的时候,他们所穿的宇航服并不是单纯我们肉眼所看到的一件衣服而已,它更重要的是宇航员的生命保障系统;而我们的监控系统最后所要达到的目的就是成为清晰化、智能化的IT生命保障系统,实现IT生产系统的自我健康管理,管理和监控日益复杂的IT系统。

监控平台研发的重要意义。

随着银行IT系统越来越复杂和庞大,人力投入过大产生的加速比越来越呈现1+1<2的情况,也就是说在IT架构的复杂程度上投入的人力越多,反而起到反作用,未能达到正向作用。如何帮助客户解决随着IT架构的庞大、云化,以及应用系统、平台中间件的复杂化中完成智能一体化的监控,实现监与控两个手段的并行,是当初我们研发产品的初衷。

目前市面上的产品更多的在“监”的层面,没有实现“控”的并行发力。

我们现在看到的市面上的监控系统,大家更多的是注重对点的深挖,比如:APM网络抓包。缺乏“面”的整合意识,市面上还没有产品能够从“面”上把网络层的故障影响面、硬件层故障、系统层故障、中间件层故障以及软件层故障的影响面上对IT系统的总体健康度进行监控,比如IBM的Tivoli。也没能从“面”上去解决这个问题。市面上产品的发力点仍都在“监”,很少有产品在监与控上齐头并进,如果有“监”没有“控”,“监”的数据只能给运维人员提供数据上的支撑与决策,若没有“控”的数据,即使发现有错误也无能为力,无法改变。只有“监”与“控”并行,并且整合各个细分市场的子产品,提供整合的监控系统,才能真正有效的去解脱人力运维。

我们的系统注重整合,将“监”与“控”达到一个完美的融合。

赞同的监控系统具备“监”与“控”并行的特点且更注重整合。整合各个细分的监控子产品,让他们在不同的层面上各司其职,最后监控系统提供一个分布式的统一决策中心,来判断IT系统该如何做。是该扩容、该预警,还是该提请关注。传统监控系统历史上处理的方式一般是重启一些端口、进程。但这些流程并不能满足日益复杂的IT运维场景。在保证事物完整、交易一致性的情况下,我们的监控系统都会自动处理一些潜在的风险与问题。

好的系统不单考虑实用性,在产品交互体验上我们也有一定的优势。

监控系统是在内部管理系统中使用频率最高的系统,一线运维人员需要快速融合与操作,UE(用户使用友好度)、UI(视觉感官度)我们都有非常人性化的设计,这也是考虑到一线运维人员更好更快的便捷操作,在产品交互设计层面我们尽可能做到更好的人性关怀。

好的监控系统需要解决的问题也是非常庞大而繁杂的。赞同的监控系统能解决的问题:

一、在硬件层、操作系统层、应用层、网络层四个维度的纵向拓扑化的关联,去定位故障点,预警各种运行风险,同时还可以根据交易和服务的数据流向,跟踪整个服务的质量及交易质量的变化,能评估IT系统生产的瓶颈,也就是我们还能承载多少客户使用量以及营销量。例如:信用卡会员日、双十一、双十二的承受能力以及IT对预估增长率曲线的承受能力;

二、解决了需要很多人力投入的重复工作,一些机械的人力重复工作,监控流程引擎就能完成,实现对IT生命系统的探测与健康监控与故障应急。

三、在“监”与“控”方面我们产品的特色:

在监方面,例如:网点早间的营业要满足107项的检查才可以判断IT系统可以满足第二天的早间营业,在此之前完全靠运维人员的经验与判断,但监控系统通过梳理后,能满足各个系统符合早间营业的科学检测方法并由我们的监控系统自动执行,这样才可以判定每天早间营业是否符合条件,如不符合监控可以在凌晨三四点有应急处理的时间及怎样的应急处理方案,包括历史上发生问题的的时间点,处理人,处理办法。提高整个工作效率;

在控的层面:任何IT系统现在的运维,很大程度上还没有实现离场运维,现在必须用telnet、SH登陆主机对软件操作平台进行操作,人力操作有道德水准的风险,只能通过制度管理,因此造成工作效率低,并且对道德管控不足。我们提供一整套控的方法,不用人为登陆机器去进行危险操作,操作流程引擎会根据知识库、配置库驱动控制引擎完成运维。例如:删除目录、删除文件这种危险操作,人为是无法进行这种风险操作的。

正常所需的软件起停,都是通过监控页面的发起、工作流、不同岗位的电子审批电脑自动执行并反馈。

(1)每个操作、action动作都有记录;

(2)有相关的审批流程;

(3)人为的整个执行不能进行危险操作;

(4)最后在整个监控的程度上会给银行提出一整套监控的接入标准。

就像手机有手机的标准,汽车有汽车的标准一样,整个金融行业一旦制定标准,在这个标准的前提下银行所采购的新的系统,不论采购A厂商还是B厂商都能够自动纳入到我们监控平台的管理手段及管控手段的体系中来,让银行也可以对IT的架构,IT的运维以及IT系统地表现形态进行一种标准化。这个标准化表现为:监控指标、监控手段、流水的关键要素、日志的关键要素、接入方法、接入协议等涵盖整个银行IT监控所需要的面,银行对标准并不陌生,银联有银联的标准,大小额有大小额的标准,甚至银行内前端有前端的标准,ATM有ATM的标准,银行在生产上的标准特别完善,但从IT系统在生命保障这个层面上的标准来看明显不足。

目前,还没有一家银行在整个IT运营层面上提出过标准,所以我们的监控平台去帮助银行在整个标准的基础上,最终实现:运维人员只是作为运维系统的监护人,而IT运维系统让银行在很大程度上拥有自我愈合能力及自我管理能力,一些常见问题能自我愈合。

我们的监控系统在运行上,真正实现“监”与“控”的并行,使我们的产品真正成为银行IT系统的生命保障系统。

我们整个监控体系对于监控系统目标的采集、管控,统一的展示入口,统一运维门户,统一大屏、统一移动端的接入,整体包括一些智能化的算法,如何去判断银行的影响面、冲击波,系统的故障会冲击到哪些地方;包括整个IT的运维体系,对传统CMDB的增补,IT架构的拓扑配置,并不能完全表现现在日新月异的IT架构以及分布式,云化的IT架构,我们的监控平台对他进行增补,这样我们具备了统一监与控的手段、统一的平台、统一的门户、统一的大屏、统一的流程引擎、统一的标准,在这个基础上,才能进行统一化处理管理。

在此基础上,监控才真正达到了目的,目前监控只是人的辅助工具,最终我们要实现的目标是:让银行运维人员成为整套监控平台的监护人。为此赞同人还有很长的路要走,我们也会孜孜不倦的走下去。

THEEND