混合云之下,金融企业应具备的分布式网络监控系统

2020-06-22 08:36:41
云杉网络
云计算
网络运维
全文共约 2913 字,阅读约需 6~10 分钟。
混合云分布式网络监控系统应紧密结合业务,向网络智能运维迈进。为金融企业解决实际网络监控难题,规划整体运维、安全平台,避免重复建设,补齐资源池内网络保障这一缺失板块。

引言

经过十多年的发展,企业在IT基础设施以及云原生的业务应用上稳步推进。上云业务规模增加,混合云中网络变得更为复杂,企业对业务安全的诉求、行业主管部门监管的要求有增无减。本方案介绍如何面向金融企业混合云环境,将网络保障与应用业务紧密结合建设有效的网络监控、分析系统。

混合云网络监控面临的新挑战

网络监控诊断并不是一个新的领域,其伴随着网络的发展始终存在。企业IT基础设施部门对此也并不陌生,但在混合云、云原生环境中,网络监控诊断面临新的挑战。主要集中在:

·资源池内的网络监控诊断

·网络与业务应用紧密结合

·网络监控架构需要弹性扩展

基于分布式技术的网络流量监控设计

传统网络监控多集中在物理网络侧,并且以集中处理为主,通过分光设备、端口镜像等方式获取网络流量,在集中的分析设备上进行处理。在混合云环境中,传统方式已经不能符合先进基础设施的要求,主要体现在:规模复杂、东西向流量大、扩展性。

分布式流量采集处理

在云环境中,资源池内的东西向流量交换是由软件编写,运行在服务器计算节点上的虚拟交换机完成的。资源池化后,简单的通过采集点来绘制业务访问路径失效。虚拟交换机数量巨大,流量数据也不可能再进行汇聚和集中处理。迫切需要通过新型的流量采集进行云网内的流量获取,分布式架构是一个合理且可扩展的设计方案。

分布式计算系统中,流量采集器不仅要具备采集网络流量的要求,同时也要作为本地流量的处理操作单元,这样分布在各个资源池内的采集器,既能避免集中处理的性能瓶颈,同时也避免单点故障。即使单一采集器出现了故障或者性能瓶颈,也仅影响本地资源池流量的获取及处理。

另外,采集器需为分布式计算系统提供统一的抽象处理能力,包括去重、过滤、压缩、截断、标记等。形成网络流量的采集处理抽象层,对于网络流量数据的分析消费透明,明确分层解耦。

分布式网络数据存储查询

在分布式数据平台设计中,主要分为数据应用层、数据服务层、数据接入层以及时序数据库存储层。应用层向消费端提供数据应用,在混合云的网络数据平台中,主要提供网络性能、异常以及智能趋势应用。服务层抽象平台各类服务,包括登录、回溯、预测、查询等,供应用调取。分布式时序数据库,在所在区域内实现数据冗余存储。

对于全网流量获取和处理后,可以形成流日志等数据,供其他数据平台、可视化平台调用,提供对整体网络性能、异常、趋势等数据应用。

网络流量获取及预处理

在生产环境中,获取混合云、云原生环境中的网络流、数据包并非易事,基于分布式架构,在可扩展网络监控框架下,流量采集与后端监控分析实现解耦,在采集侧需要支持物理网络、KVM、ESXi、容器等资源池网络环境,为全网流量采集方案提供基础捕获能力。

平台控制中枢

对于多数据中心、多云异构的混合云基础设施,面临采集器的数量巨大的问题,如在容器环境中,单一资源池拥有50-100台物理计算节点,运行10000-20000个Pod单元。

对混合云的整体网络监控也需要提供统一的服务提供点。控制器是整个平台的控制中枢,以集群方式部署并具备高可用能力。在多点环境部署时,要充分考虑管理策略、采集策略、分发策略、预处理策略的同步和一致性。多数分支机构通常不需要独立部署控制器,可以按实际情况,将采集器划分在附近区域的控制器管理下。

公有云环境中,控制器部署在虚拟机中,管理范围内的采集器。

数据节点

网络流量数据是典型的时间序列数据,同时具备相应的网络特性。满足网络监控诊断要求,需要具备对所存储的网络数据进行分组聚合,提供高性能查询能力,展示网络趋势、规律、异常等。数据节点分布式运行网络时序数据库,为平台提供时序数据的快速写入、持久化、多纬度的聚合查询等基本功能。

此外,云环境中所固有的弹性也要求时序数据库需要支持弹性伸缩。

网络知识图谱

在网络监控所涉及到的分析对象中,将最终钻取到的具体数据包看做是“点”,提供深入详细的协议识别,异常排查证据。完整的业务访问路径,一条网络流则是由多个“点”连成的“线”。在路径中包括链路、防火墙、负载均衡、服务等信息,是网络保障业务稳定运行的关键视角。流信息包含了关键的网络元数据。

“点”与“线”在传统的网络监控方案中很常见,在混合云环境中,只要能采集到相应的现网流量,展现及分析都变化不大。但在多地数据中心、资源池化,并且涉及公有云资源,专线链路的IT环境,市场上缺少全局的网络状态视角,这并不是一个单纯的统计汇总视角,而是一张关联IaaS资源、PaaS资源、服务应用的知识图谱。

在网络监控诊断的过程中,不同岗位,不同阶段运用不同的操作以及有不同的关注点。知识图谱包含网络所涉及的对象实体映射关系,显示结构拓扑与现网流量的一系列不同视角的视图展示,应用可视化技术描述资源实体及搜索技术提供更深度更广度的搜索交互。

在混合云网络中,通过有效的网络流量采集、数据分类存储以及网络“面”、“线”、“点”的紧密结合,以应对企业网络监控诊断的挑战。

容器网络监控诊断场景

云原生系统发展迅速,大量企业已经将容器环境投入至生产,有效的容器网络保障是迫切的需求。本节以Kubernetes环境为例,解决网络监控诊断的难题。

在容器环境部署及管理方案中,对于系统监控报警会更多地关注开源项目Prometheus,客户尝试其结合Grafana 、Zabbix以解决容器网络监控保障的难题,虽然涉及到一部分网络指标,但对于深入的网络需求,以及规模扩容后,对采集器控制、采集精度、关联分析等有更高的要求,以上是存在瓶颈的。

如上图所示,容器网络流量通过采集器进行获取,支持虚拟机,物理服务器做为计算节点的部署环境,物理网络流量由分光镜像获取;对于容器环境,建议以Pod为单元获取网络流量,从而实现对全网流量数据的获取。

容器网络的监控诊断,最大的挑战是其固有的波动特性,全网的流量数据以及网络知识图谱保证对全网状态的可视化,此外针对重点业务应用,需要将其纳入视图进行持续关注。包含完整的容器资源、应用、网络几个维度才能完整绘制出业务的端到端网络路径。

如何对业务进行画像,是描述业务应用网络访问路径的关键。不同于传统物理网络中通过探针位置定位网络路径,在池化后的网络环境中,采集器将面向整个资源池,涵盖所有的Pod资源,并且要面对容器自身的波动性。对业务的监控要涵盖业务应用所涉及的全部资源。

通过业务所涉资源的描述,资源池内的流量将按此规则过滤,实现业务应用端到端访问的网络监控与诊断。 在整条路径中,分段排查网络状态,快速缩小问题范围,定位异常原因。网络图谱中,区域、节点、POD、IP等多维度的网络状态查询展示,不断缩小范围,回溯定位网络流、数据包进行分析取证。

总结

混合云分布式网络监控系统应紧密结合业务,向网络智能运维迈进。为金融企业解决实际网络监控难题,规划整体运维、安全平台,避免重复建设,补齐资源池内网络保障这一缺失板块。

题图来源:Pixabay

收藏
免责声明:凡注明为其它来源的信息均转自其它平台,由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。联系邮箱:leixiao@infoobs.com