【CIO早班车】大数据系统的运维应该怎么办?

e行网
佚名
今天由于市场竞争越来越激烈,企业内部业务部门对IT的依赖越来越高,企业外部客户对企业提供的服务也越来越苛求,因此企业对IT服务水平的要求就越来越高。 此外,CIO还要面临一系列的挑战,例如:系统变更频繁、人力...

今天由于市场竞争越来越激烈,企业内部业务部门对IT的依赖越来越高,企业外部客户对企业提供的服务也越来越苛求,因此企业对IT服务水平的要求就越来越高。 此外,CIO还要面临一系列的挑战,例如:系统变更频繁、人力不足、人员流动率高、系统复杂度增加,还有永无止境的成本压力。因此越来越多的企业,开始在传统系统监控的基础之上,利用 ITOA来更好地从海量的操作数据中收集、组织、分析、发现、识别和预测运维过程中复杂的模式和信息,作为运维优化的基础,或是进一步运用这些洞察力达到业务创新,获得更高的商业价值。

为了更进一步理解这些原始运维数据背后隐藏的信息或代表的意义,ITOA常会用到可视化分析、机器学习、预测性分析、根本原因分析、图形分析、文字分析、行为分析等不同方法,从各种不同角度对运维数据进行深度分析。

ITOA在异常发现与预测、异常诊断、性能容量管理、事件管理、告警优化、网络与安全管理、运维自动化、用户体验优化等应用场景能起到非常好的作用。 举个例子,我们有一个大型企业的客户,由于业务增长快速,在内部搭建了一个包含数千虚拟机的私有云平台,为了支撑多变的应用需求,云平台每天必须处理高达数万次的操作命令,完成大量资源布署、调整、移转、回收等动作。在这些操作过程中,难免因为一些软硬件或人为的原因,造成作业的失败。

在过去,由于云平台规模庞大,管理团队人力不足,为了发现这些运维异常的状况,必须依赖传统监控工具,但这些工具能力有限,往往只能检查特定指标有没有超过阀值,或是在个别系统出现错误日志之后才发出告警,但这种作法的效果并不好,比如在建立虚拟机的作业中,其中一个所需的资源因为某种原因处在锁定状态,云平台可能会重复启动多次的尝试请求而不会立刻发出错误的返回码,在这种状况下,必须等到很长的时间经过,而整个作业却仍然不能完成后,系统才会返回超时的错误信息,触发告警。

另外在某些状况下,由于工作线程本身消失或出现异常,预定的作业无法进行,这种问题也常常不能及时被发现。在这些状况下,用户往往必须在事后才能被动的发现故障,通知管理团队开始定位、诊断与处理问题,如此一来,系统资源不能在预定时间完成供应,对系统可用性就会直接产生影响。

为了改善这种状况,这家企业的CIO采取了ITOA日志大数据分析技术进行监控系统的优化,首先管理团队将云平台系统海量的历史日志进行集中化存储与分析,接著,再从这些日志所代表的运维轨迹,发现每个云平台作业的操作模式,这些操作模式再与生产环境中实时产生的运维数据作比对,一旦发现生产环境产生的数据与正常操作模式发生重大的差异,就代表系统作业可能产生异常,此时监控系统就会针对这种可疑状况及时发出告警,讓管理团队能够提早发现系统的异常或可疑状况,并及时采取必要行动,避免问题的恶化或发生。

经由上述案例的说明,可以知道如果能够善用大数据运维分析的方法,的确可以显著提高企业IT系统运维的质量。随著客户对企业运营穩定性的要求越来越高,IT在企业创新过程中扮演的角色越来越重要,ITOA的应用势必日益受到企业CIO们的进一步重视。

IBM作为全球领先的运维服务商,累积大量运维经验,实际应用认知与大数据技术,来提升生产环境的运维质量,也能提供端到端解决方案,来满足不同运维场景的需求。客户可以轻易的结合自身业务与环境的状况,选择适合的平台、工具与方法,优化自身运维能力,提高系统可用性,满足业务需求,并通过数据驱动业务创新。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论