金融业的IT运维如何升级?

金融行业智能运维AIOps实施建议白皮书
长久以来,金融业IT运维管理一直强调通过严格的制度和规范的流程,把复杂系统纳入可预期的管理操作之下,使之进入“稳定状态”。IT运维主管是做“救火队长”还是“防火专家”主要取决于内部的管理制度建设和落实。

随着人工智能和大数据技术的蓬勃发展,越来越多的业务领域都在尝试进行业务能力的升级。众所周知,金融领域对IT系统的服务要求极为苛刻,要求7x24持续不间断、接近于“零”宕机的99.999%要求。

金融业务的持续创新带来其支撑软件的不断变化和迭代以及对IT系统服务越来越高的要求。因此,金融行业数据中心运维领域也必然需要引入新技术、新思路、新体系来更智能化地为金融行业保驾护航。

过去二十多年,金融行业IT技术取得了长足发展,而IT运维管理的痛点和难点也层出不穷,运维一线团队长期处于紧张和压力的状态,经历了无数个诊断故障与解决问题的不眠之夜。

有人说,每一次运维团队的经历都不仅是挫折,而是“毁灭性的灾难”。无论甲方还是乙方,对运维的要求早已超越了“维稳“的范畴。

过去很长一段时间里,IT运维依赖的主要是人脑的智慧,专家的经验和产品技术的更新迭代,去响应和处理已经发生的故障。

今天,大环境已经发生巨变,人工智能开始“加持”运维,由此诞生了本书所说的智能运维(AlOps)。通过将金融行业与IT运维经验和机器学习算法相结合,能实现对业务状况进行“故障预警”。

长久以来,金融业IT运维管理一直强调通过严格的制度和规范的流程,把复杂系统纳入可预期的管理操作之下,使之进入“稳定状态”。IT运维主管是做“救火队长”还是“防火专家”主要取决于内部的管理制度建设和落实。

然而,云时代大量新技术的应用,整个金融后台系统出现双速IT,总是有一部分系统保持在“敏捷状态”,简化的流程、快速的迭代、复杂的技术都对传统的管理方法提出挑战,管理好高速变化中的系统都需要有更先进的IT管理思路和更高级的科技手段。

利用人工智能技术,可以帮助运维人员在事后的蛛丝马迹中快速定位问题、在事中的运行指标中发现故障并实时响应、甚至在事前洞察到可能的风险并提前调整优化,基于人工智能的新一代运维方法称为AIOps,它能极大降低IT运维的工作强度,同时显著提升反应速度。

更重要的是,它能使运维人员洞见未来,提前进行判断,提高系统有效性和资源合理性。在近些年的市场中,AlOps受到越来越多的关注,正在成为新的主流方向,成为IT运维神器。

01、什么是AIOps?

根据Gartner的分析报告,IT运营人员(ITOps)的工作在未来几年内将发生重大变化。这种变化是受传统IT管理技术(企业ITOps团队认为无法应对数字业务转型的方法)的挫折所驱动的。

Gartner预测,我们将看到当前IT运营程序的重大变化,以及我们如何管理IT生态系统的重组。而这些变化的关键是Gartner称之为AIOps的新平台。简单来说,AlOps就是希望通过人工智能的方式,进一步提升运维效率,包括运维决策、故障预测和问题分析等。

智能运维AlOps通过系统运行过程中所产生的数据,运用AI和算法、运筹理论等相关技术,对运维数据进行分析,进而提升运维效率的新一代运维手段和方法。

02、金融业运维特点

金融业一直走在IT技术趋势发展的第一梯队。一方面金融行业有着过往30年采用企业级IOE软件硬件基础架构的长期经验,另一方面金融行业也在积极践行开源软件和互联网架构的实践。

在迫切的业务需求面前,银行传统IT运维还面临着交付效率、运维质量等方面的多重压力。在双模IT建设中,如何保证业务系统稳定性、故障定位和根因调查,都极大挑战IT运维人员的水平和运维的有效性。切换被动式运维到主动式/预测式运维可以极大地提升运维效率。

金融业IT系统特点:

由大量大型机、小型机、存储、网络等设备构成基础架构

有大量企业级软件Tivoli/Oracle/Websphere/MQ/ESB等

采用企业级监控软件,监控指标多应用于企业软件

有复杂的异构环境和应用拓扑的应用系统

业务需要有严苛的交易事务保护处理机制

有各种业务体系和应用日志数据格式标准

强监管成为金融科技行业的主旋律

03、金融业运维痛点

金融行业是当前IT建设和运维水平最发达的行业之一。伴随着金融行业高速发展,IT建设的规模也越来越大、IT运维的复杂度也越来越高。传统的IT运维管理ITOM和运维理论ITIL已经越来越不能完全满足金融行业IT建设的庞大规模。

金融行业日趋严格的监控要求,对银行业务的连续性管理和网络安全防护能力提出更高的要求;IT运营规模增长和架构日益复杂,对运维自动化水平提出更高的要求;银行同业竞争日趋激烈,为抢占市场、提升客户体验,对IT交付能力提出更高要求;快速业务创新对基础环境的弹性伸缩能力提出更高要求;同时大的环境也要求各银行加强运营成本控制,对IT部门降本增效的能力有了更高的要求。

对于金融行业两地三中心部署,超过数千个的复杂系统和异构软硬件设备,每天产生TB数据级的数据量,金融系统宕机将直接影响到各行各业的业务,而采用传统运维专员+ITOM管理平台的运维手段势必将越来越不能适应IT发展的趋势。

总结下来,金融行业普遍面临如下痛点:

2345截图20200908083720.png

04、AIOps在金融业的发展现状

金融行业在AIOps建设领域,有非常特殊和领先的地位。

发展趋势:

1.不少金融机构已经在AIOps方向立项;

2.大部分金融机构已经或正在构建运维大数据平台;

3.部分金融机构从运维痛点出发尝试AIOps;

4.不少金融机构希望把AIOps作为响应国家战略的试验田。

不足之处:

1.概念鱼龙混杂,架构定义不清晰;

2.落地方案不明确,没有贴合自身实际痛点;

3.数据治理没有完成前,匆忙上线;

4.AI期望过高,偏离AI实际能力从而导致项目失败;

5.尝试用互联网建设思路建设AIOps。

05、金融业AIOps目标

随着业务和基础IT技术的飞速发展,规模、人员、效率的矛盾日渐突出,一方面金融企业切实存在运维痛点。另一方面各企业均建立了自己的大数据平台,在摸索通过自动化、智能运维的方式解决现实中的问题。智能运维AIOps已经不是企业的可选项,而成为发展的必选项。

同时,随着AI技术在各个应用领域的落地及实践,IT运维也将迎来一个智能化运维的新时代。算法的效率提升了AIOps的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来。

基于实际实施经验和对项目的理解,初步分为三个阶段目标:

2345截图20200908083720.png

06、金融行业AIOps的价值

AlOps终极形态:无人值守运维。“AIOps正在广泛应用于IT大数据和业务大数据分析领域,为企业提供极具价值的业务洞察能力”。

据Gartner分析师最新预测,到了2022年,部署AIOps平台的大型企业数量将从如今的不足5%,迅速提升到40%左右,而这些企业会把AlOps用于业务运营和IT运维,以取代如今的运维监控、管理工具和自动化运维产品。

当前企业的数字化程度越来越高,IT系统的复杂度和规模越来越大。当前在金融领域IT最主要矛盾逐渐转变为业务对IT运维要求的越来越高和传统IT运维水平和管理方法越来越不能满足日常运维服务水平。

因此在金融行业采用AlOps智能运维势在必行,这将是下一代运维的核心生产力和能力基础。创造IT运维新方式,助力IT运维新高度。

预期价值收益如下:

2345截图20200908083720.png

07、金融业AIOps系统集成建议

在金融业竞争日益激烈的今天,金融行业的业务类型不断增加和变化,要求IT在原有的业务系统上不断的扩展改造,因此新的金融业AIOps集成方案应运而生,来为金融业解决此类问题。通过新方案和新的运维模式能够达到一体化智能运维的目的,从而提升整个数据中心运行效率,降低成本。因此我们建立了一个运维金字塔参考模型,指导我们。

AlOps系统集成项目规划及实施:

数据基础(监控)

这是智能运维的基石,从数据层面来看,金融业运维的数据是非常多样化的,通常会有告警数据,性能数据,日志数据,配置数据等,通常企业在多年的发展中已经建设了监控系统,而且有些企业也会部署自动运维系统来实现快速部署应用中间件/数据库,自动化巡检等功能。

数据管理(报告)

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用,从而实现数据有效管理,其中关键是数据组织。此阶段是数据归档级别,所有运维数据已实现归档,并持久存放,但是无法实现全局搜索。

数据检索分析(分析)

此阶段通过一个统一平台实现所有运维数据全局搜索,同时使用一些适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结,但是无法实现数据多维度关联分析。

数据运营(预测)

通过关联所有运维数据,从而分析,解释原因,实现事前预测功能,同时也可以关联多项运维指标进行预测。

数据认知(预防)

通过人工智能手段,不断进行机器学习,累积企业特有的运维经验,形成企业智能运维大脑。

08、金融业AIOps实践典型案例

客户是一个国内超大型全国性银行金融机构,覆盖全部银行对公对私业务,是大型金融机构典型企业。客户的数据中心已经实现了两地三中心的基础架构和大型金融典型数据中心的所有特征。

在建设智能运维的建设思路上,客户是走在了国内银行企业的前列。由数据中心副总直接挂帅领导下属业务支持处,系统运维处,安全网络处,设备维护处,全条线覆盖。自上而下,高屋建瓴的进行新一代智能数据中心体系化建设。

在2016年启动智能运维平台项目的建设工作,借助基于人工智能的智能运维(AIOps)技术,初步建立了数据中心的“运维大脑”,以保障业务的安全、稳定运行。

涉及到数据中心业务需求,设计各运维应用场景,通过开发、建模实现大数据在运维辅助告警、日志异常检测、系统运行趋势分析以及业务增益等方面的运用并进行灵活展现。从AB级系统中挑选交易量大、银联可用率影响较高的8套重点系统,约800分区进行试点上线。

基于Hadoop,在充分考虑到各组件使用场景基础上,充分利用kafka消息总线,通过Spark进行流式处理,有机结合Hive、Hbase、Redis、Elasticsearch等当前主流组件的特性,应对每日TB级增量数据,提供秒级响应体验。

随着业务的扩张及日益的多样化,IT环境中的各类设备也成倍数的增加,并且大量应用系统间相互共享资源,包括但不限于硬件,软件,网络等,导致IT系统中应用及相应架构上事故的诊断需要进行复杂且深入的调查,既耗费时间,又占用大量资源,甚至造成大量的经济损失。

在数据中心业务和运维价值观点看,通过智能运维平台的使用,统一采集、管理业务相关的各类运行状态数据和底层机器日志,结合算法对异常点的预警,统一展示给运维人员,对故障根因的分析判断带来了极大便利,整体缩短了故障排查的时间。

成功案例显示,AlOps的核心价值是:

✓故障排查时减少90%的数据收集时间;

✓数据库容量预测的准确率可达99.5%,提高资源的利用率;

比常规日志监控多发现30%隐患异常日志;

✓提前10分钟,主动预警系统的可用性故障;

✓将故障根因定位原来人工定位需要的8小时,缩短到30分钟;

✓根据实际业务动态伸缩分配资源,减少30%资源成本。

本文摘录自IBM《金融行业智能运维AIOps实施建议白皮书》

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论