远离宕机?存储自动运维了解一下

略懂的小咖
随着全球数据规模的爆炸性增长,企业数据中心的故障中,存储设备相关故障已经占到70%以上。以某国际互联网社交企业为例,每天需要修复数据高达24TB,每天修复带来的跨机架流量高达180TB。技术和新应用的层出不穷,也带来运维复杂化的副作用。

美国太平洋时间12月14日凌晨3点47分左右,YouTube、Google云端硬盘,Gmail,Google Meet,Google文档,Google搜索,Google Play,Google Home,Google Maps停服,这是谷歌近半年内第三次出现大规模宕机事件。

经过近50分钟的紧急处理,相关服务在当地时间凌晨4点32分恢复正常,并向受到该问题影响的所有用户表示歉意。

至于这次宕机的原因,来自谷歌官方的表述是“internal storage quota issue”。在谷歌后续的一份初步调查报告中,提到导致宕机的原因为“我们的自动配额管理系统出现了问题,降低了谷歌中央身份管理系统的容量,导致其在全球范围内返回错误。因此,我们无法验证用户请求是否经过认证,并向用户提供错误。”

那么,这个“自动配额管理”是什么意思呢?

存储专家解释道,数据在存储盘中的存放,并不是“既来之,则安之”,而是需要规划一个存储池,被划在这个池中的数据只能在对应的空间中存放。池子有多大,就是通过上面的“配额”来管理的。

这次导致谷歌宕机的“自动配额管理系统出现了问题”,就好比我们去坐火车,先要有一张票,才能上车。但是现在售票员在工作时间划水跑了,大家没有买到票,结果人在站外着急瞪眼,车在站里空空如也。

111.png

想要彻底避免类似问题,就需要我们的运维工作不仅仅监控磁盘是否写满并报警,还要做出资源池级别的容量监控,以便更进一步做出提前预测,避免自动额度管理系统“罢工”。华为AI运维提供面向池级、盘级、系统级的容量阈值监控、容量预测告警,同时,华为也提供自动资源发放管理的能力。

近期,科技巨头公司、证券公司频频故障瘫痪,影响小则波及一个区域,大则波及全球。IT基础设施层面的高可靠构筑诚然是前提,是“金刚钻”,但问题往往出现在运维阶段,“手艺”怎么样,才是决定“瓷器活”能否做成的决定性因素。

有着深厚先进技术积累的科技、金融领域企业尚且在运维上频频触礁,其他领域的风险和困境可想而知。

调查数据显示,随着全球数据规模的爆炸性增长,企业数据中心的故障中,存储设备相关故障已经占到70%以上。以某国际互联网社交企业为例,每天需要修复数据高达24TB,每天修复带来的跨机架流量高达180TB。技术和新应用的层出不穷,也带来运维复杂化的副作用。

传统的运维高度依赖人的经验和精力,运维人员的一天就是从虚机、存储,再到数据、网络,更像一名企业的救火队员。在全球产业迈进数字化、智能化的背景下,如何使能统一的AI运维,扭转传统“人拉肩抗”的局面,从而实现支持企业业务平稳运行,业务战略突破的目标,已经逐渐成为全球行业头部企业的共同诉求:

01

首先,运维系统从一个追求稳态的系统,走向追求稳态+敏态的系统。这就意味着,运维系统不仅要追求7*24小时的稳健运行,还要追求对业务的敏捷使能。

02

其次,运维已经不仅仅只是一个支撑系统,更多的是要与业务融合,成为一个生产系统,给业务带来新的价值;

03

最后,运维的流程将慢慢地从“以人为中心”向“面向自动化的业务流程重构”,最终走向“自动驾驶”的IT运维系统。

在数据基础设施运维层面,运维的自动化水平是数字化转型的核心体现之一。特别是面向核心系统或新兴业务,运维将更多地参与到生产系统中去,运维与业务的结合会越来越紧密。

只有让更多的运维人员从繁杂的例行工作解放出来,才能投入到更加有创新性的工作中去。华为存储基于智能运维平台DME逐步构建面向智能运维的AI能力,围绕客户关心的设备异常、容量预警等关键场景为客户业务的正常运行保驾护航。

具体来看看华为智能存储运维有哪些“法宝”?

设备侧+云端容量预测

假设客户能够提前预知阵列或存储池,甚至更细粒度对象的容量变化趋势,那么,由于容量配额不足所导致的服务宕机情况则会大大减少。华为提供“云上+本地”联动的运维能力,基于时序预测等关键技术,能够向客户提供未来最长365天的容量趋势预测,并能够提前预警80%配额,提醒用户提前扩容。

提前14天风险盘预测

如今,通过华为存储的异常检测模型服务,可以提前14天预测到硬盘故障。华为硬盘异常检测模型服务基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)技术,每日采集数据中心硬盘数据(硬盘ID、SN、硬盘非安全断电次数、通电时长),从历史数据中识别硬盘不同属性的突变模式对当前状态进行预测,结合用户反馈数据,定期执行模型自优化,持续提升预测精度。为DC硬盘提供主动运维。

截止目前,华为硬盘异常检测模型已经服务于200+企业DC,帮助客户提前14天识别硬盘故障或风险,预测的误报率低于0.1%。

存储性能异常预测管理

基于时间序列预测等关键技术的性能预测特性,以及基于阈值触发的性能潮汐预警,能够让客户预知设备关键性能指标变化趋势。时延、IOPS、块带宽尽在掌握,以提早发现设备性能瓶颈点,辅助客户尽早规避可能发生的异常。

传统的专家经验规则或静态阈值预警,无法覆盖大多数性能异常场景,且可能存在误报漏报的情况。华为提供基于机器学习的关键性能KPI异常检测及根因定界特性,无监督自学习的异常检测模型能够实时检测设备时延是否异常,现网数据测试验证,异常检测准确率近90%;存储设备内置基于多集成树算法融合模型,外加皮尔逊相关性关联分析算法,实现异常根因的定界分析。

华为智能存储引擎DME基于“云-中心-设备”三层AI架构,携手客户在智能运维的自动驾驶之路上不断创新,持续扩大自动化的边界。从被动运维走向主动运维,持续降低运维门槛及成本,实时确保客户业务体验最优。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论