随着5G的规模部署,运营商将管理更为复杂的多代共存网络,管理对象数量的急剧增加使网络运维的复杂度成指数级上升;另一方面,用户对SLA和客户体验保障的要求更高,使得运营商必须保障网络具有更高容量、更高可用性和更高的业务质量。传统运维模式“手拉肩扛”的运维模式,效率低下,难以应付这种挑战。
同时,在疫情期间,远程办公、在线教育、远程医疗等“非接触式”服务得到广泛应用,在线娱乐、在线游戏等业务的用户量也随着“宅在家”而迅速攀升。局部流量暴涨,电信运维人员又无法及时出勤,给网络运维带来了较大挑战:如三月初,欧洲某些国家网速呈现“跳水式”下降,欧盟只能敦促流媒体供应商通过降低码流的方式减少网络流量;同时有运营商则呼吁公众减少网络使用量,以降低网络压力;还有的国家网络出现服务中断,民众打电话、发短信和上网等基本通信业务都受到严重影响。可以看到,网络的不断演进和突如其来的疫情,都给运营商的网络运维带来了巨大挑战。
▲ 传统运维模式难以应对新挑战
为帮助运营商打破“运维成本随设备数量线性增长”的魔咒,华为提出以端到端网络“可视可管”加快故障定位,以“预测预防”减少网络中断,以“智能故障管理”缩短故障处理时间,并通过引入AI算法,以“人机协同”的理念推动运维人员技能提升,最终实现“代码级”运维和智能化运维。
跨域、跨层网络端到端可视可管
采用LLDP(链路层发现协议)实现网络拓扑快速还原,实现跨核心网、传输、无线的网络端到端拓扑还原,并叠加告警同图显示加速故障定界定位。对NFV云化网络,支持跨层拓扑显示,实现从VNF网元->虚机->服务器->机架交换机等多层拓扑钻取。
VoLTE语音呼叫失败的预测预防
VoLTE业务涉及网元多,接口复杂。传统运维基于单指标固定阈值监控难以全面感知网络,导致业务隐患发现慢。例如,VoLTE“呼叫成功率”的告警阈值被设定为一个固定值,告警出现的同时,业务质量也在“劣化”,由于缺乏“预警”时间,运维人员难以及时采取措施,结果往往会导致大范围业务中断,用户投诉也会大幅增加。
为应对VoLTE故障发现晚、定位难、恢复慢的问题,华为运维专家分析了话统、CHR、告警、操作日志等数据,推出了VoLTE业务异常风险预测模型。该模型引入AI算法实现风险评估,实时监控多个VoLTE指标,一旦指标偏离业务模型,系统将自动结合历史趋势等因素进行质量分析和故障预判,可提前30分钟预警,变“被动处理”为“主动预防”,大幅减少了VoLTE群障。
核心网变更智能辅助
传统运维模式下,网络变更实施完全依赖于工程师的技能水平,缺乏变更过程中的流程监控;同时,每年高达上万次的网络变更加大了人为操作失误的可能性,尤其是涉及核心网的高危操作较多,容易出现人为事故。华为基于全球1500多张网络的运维经验开发了“核心网变更智能辅助” 方案,实现从“变更前业务验证”到“变更值守”的全流程自动化,通过AI算法实现脚本错误码处理建议和关键KPI自动对比,提前发现变更问题,及时给出风险应对措施和建议,从而实现“0”重大人为事故,将高风险事件转变为高“价值”事件,保障了网络安全。
运维业务编排使能作业自动化
通信网络中存在大量“烟囱化”系统,导致人工操作环节众多,业务下发的服务承诺时间难以保障。客户通过使用华为Studio以“托拉拽”的形式实现运维业务快速编排,有效提升了作业自动化水平。
▲ 无需精通编程技术,“托拉拽”实现运维业务编排
目前,在流程编排、自动化API编排和AI应用等方面已经部署大量用例投入生产,“机器”解放人力正逐步走向成熟。
综上,华为智能运维解决方案已经融入客户运维生产全流程,助力客户运维数字化转型。
▲ 人机协同的智能运维保障5G商用
5G已经到来,人机协同的智能运维需要对网络有更广泛的感知、分析、决策和执行能力,运维工程师角色也将转型为数据分析师、网络策略师和应用编排工程师,从而实现网络业务自编排,保障5G的商用成功。