数据保养让数据质量持续良好

2020-01-10 16:10:17
全文共约 1626 字,阅读约需 3~5 分钟。
近年来,随着企业信息化的高速发展,数据治理工作陆续开展起来,但是随着数据治理工作的逐步深入,数据质量的重蹈覆辙问题越来越凸显,甚至很多企业走进了反复治理的怪圈。当然,导致数据质量重蹈覆辙的因素有多种,但无论如何都应建立针对数据质量防微杜渐的监测、处理机制,把问题扼杀在摇篮阶段。

近年来,随着企业信息化的高速发展,数据治理工作陆续开展起来,但是随着数据治理工作的逐步深入,数据质量的重蹈覆辙问题越来越凸显,甚至很多企业走进了反复治理的怪圈。当然,导致数据质量重蹈覆辙的因素有多种,但无论如何都应建立针对数据质量防微杜渐的监测、处理机制,把问题扼杀在摇篮阶段。

2018年3月15日,中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会发布了GB∕T 36073-2018数据管理能力成熟度评估模型,此模型对企业的数据管理能力进行了分级,根据不同等级提出不同的改进、发展建议,挺好的!但是这种评估成本较高,周期太长,甚至很多企业很多年才能评估一次,哪怕国家鼓励或者强制。

高速发展的社会、企业,快速变化的数据质量需要我们具备快速响应的能力,这个能力不能只是方法层级的,需要有对应的工具才可以。360安全工具短短几年从那么小发展到现在的规模,主要就是因为它的灵活以及快速反应非常适合当下人的心理。

为了数据质量的持续性良好,数据质量项目后我们需要具备一个基于大数据行为分析的数据保养平台(质量评估、监测、处理),而不是传统意义的基于属性字段级的技术验证。平台需要具备实时探知数据质量的能力,并且把数据质量量化展现,同时提供问题数据处理的通道。具体逻辑架构如图1所示。

图1 数据维护行为约束

类比一下,当某一个人得病住院治疗(包括打针、吃药,甚至手术等),痊愈出院后,除了高兴即将面临的最大问题应该是如何确保不再复发。因此,此人除了遵医嘱少吃肉、不喝酒、不抽烟等外,还会不断的去医院做各种复检。

数据治理同样的道理,数据生成后我们千万不要迷信本条数据的质量100%没有问题,或者说以后这条数据也100%不会再出问题。这里可能有人说没关系啊,有点小问题很正常,不用去管。但你有没有想过积少成多的道理,企业的发展还有N多年,长期的累积叠加重蹈覆辙是必然的事,根据经验传统数据治理1-2年左右就会再次爆发数据质量问题,到那时很多人就没人说是小事了,甚至就成了你的责任了。

再次重申,对于企业数据质量问题的解决,您还是想的简单了些!

因此,数据生成后的再次优化(我们统称数据保养)是未来数据治理的必然工作。

那么,数据保养平台需要具备什么样的技术才能够达到我们理想的要求呢?近年来越来越多的人把目标锁定在了AI相关技术上,比如数据中台就是希望通过AI技术进行数据汇集后的质量判断、处理,但是最终发现深层次的数据质量问题依然束手无策。

方向没有错,AI技术一定会是未来数据质量控制的主力,只不过现阶段的技术还没有达到相应的标准,因为汉语在不同环境下的五花八门的语义是需要机器多年的“刻苦学习”才有可能实现的,或许未来5-10年能达到让我们满意的标准。

现阶段,我们只能通过长期大量数据标准及标准数据的积累(这个需要厂商有10年以上的专注才可以),同时借用部分的大数据、AI技术进行深层次数据质量问题(如错别字,物资数据的复杂名称、规格内主副词的叫法不当、顺序颠倒、缺失等)的发现、解决,我们暂且把它成为“大数据的行为分析”(对应系统:数据评估监测平台)。要说明的是这个阶段的技术一定要杜绝属性字段级的表达式验证或者关联验证,因为在数据维护阶段已经验证过了,这里没有必要重复同样的工作了。

数据生成后就要运用大数据行为分析优化数据质量,如果数据源头是在某业务系统中,当数据生成后传输到数据治理平台时发现了质量问题,但这时此条数据已经在某业务系统产生了业务,数据评估监测平台还可以直接深入到该业务系统的相关单据进行静态数据质量的检核、处理,具体细节这里就不再赘述。

数据保养十分重要,所以我们也是通过不断地开发和研究,使中翰数据保养平台既可以通过自定义内置数据标准、标准数据及标准词库,还可以根据不同企业的不同数据类型进行定制化的机器学习、算法等的开发、配置。

山东中翰软件有限公司