专访Datablau蓝图明册CEO王铮:数据治理提升企业核心竞争力

信息化观察网
雷孝
我们知道Datablau致力于让企业内部数据可见、可识、可控、可融,更易挖掘价值。它帮助企业进行敏捷数据分析,解决从原始的数据到业务视图的问题,加速数据分析的过程,降低企业的运营成本。在刚刚落幕的2017中国信息...

我们知道Datablau致力于让企业内部数据可见、可识、可控、可融,更易挖掘价值。它帮助企业进行敏捷数据分析,解决从原始的数据到业务视图的问题,加速数据分析的过程,降低企业的运营成本。在刚刚落幕的2017中国信息化创新发展大会上,Datablau北京蓝图明册科技有限公司创始人&CEO王琤获得了“信息化影响中国•2017年数据资产管理领军人物奖”,并在现场与我们分享了企业数据治理的心得。

Datablau北京蓝图明册科技有限公司创始人&CEO王琤

“讲数据治理这块相对来说比较抽象,我想先拿一个例子,今天中午跟朋友吃饭的时候聊,有人在吐槽说现在开发票要填税号,这件事大家都挺痛苦的,这个确实涉及到就是数据孤岛问题,其实就是工商局和税务局,两个大孤岛互相之间没法去拉通,这么一个事,其实不止是这么一个例子,我知道今天可能在座有很多都是企业来的,企业里面这个问题非常严重,十几年建立很多业务系统,信息系统,ERP,CRM,各种业务系统,系统都是用不同的厂商,有的是神州数码这样的企业做的信息系统,当年作为信息系统,满足了我的业务需求,我就把这个事交付了,但是信息系统源源不断产生各种数据,过去两三年大家在聊大数据,把信息系统数据存上来,又不知道怎么玩数据了,存进来很多数据,但不能理解这个数据,这些数据业务含义是什么,销售屏障在哪,在哪个表哪个字段里,这个数据趋同,数据的口径怎么统一,这都是数据治理的范畴,今天下午讨论一下数据治理这件事,更多来讲这个事也挺落地的,不像喝果汁和看病,对企业对社会来说业务价值都是非常大的。”王琤如是说。

"数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。"

在被信息化浪潮包裹的今天,大数据已悄然成为企业的重要资产之一。然而,企业内部的数据"孤岛"尚未完全被打破,部分企业仍处于互不相通的状态,数据只有流通和连接,才能实现它的价值。

企业的数据资产在实现其价值之前,就必须要经过数据收集、数据准备、数据分析、利用数据做决策等阶段。对数据的全生命周期进行治理。

数据准备,在整一个数据分析及其企业根据数据做决策这流程中,是一个最基础的阶段。我们可以理解为,它扮演着建筑业中的"打地基"角色,"地基"打得越扎实,工程的后续阶段才能有条不紊地进行。

规模较大的企业内部通常会有上百个业务系统、数据库,数据环境极其复杂。在进行数据分析之前,必须把这些互不相通的数据进行抽取、清洗和整理等工作,数据才能达到可用、可信的程度,进而令后续的数据分析实现其商业价值。因此,数据准备工作的重要程度便不言而喻。

然而,纵观中国国内大数据市场,专注于数据准备和清洗工作的企业,寥寥无几。

这是一个市场契机,但机会只会青睐真正做好一切准备的人。

十年“呕心沥血”成果显现

颁奖现场图——左起第五位为Datablau北京蓝图明CEO王铮

2016年年底,王琤离开了他倾注了十年岁月的CA公司,与曾经的队友朱金宝共同创立了Datablau(北京蓝图明册科技有限公司)。CTO朱金宝曾经在CA担任ERwin总架构师,并被王琤称为是"一个有情怀有坚持有梦想"的人。王琤与朱金宝在CA研发的作品就是广为人知的ERwin数据建模产品。作为数据治理市场的领导者,他们始终保持全球视野,专注打造全球技术与理念领先的产品。

经过两年的努力和磨砺后,由王琤带领的ERwin中国研发团队在原有成立多年的美国、印度团队间大放异彩,一举成为ERwin研发的主导力量。最终,所有代码贡献都来自中国团队。

ERwin数据建模过去曾经为不计其数的大企业提供数据服务。"因为Erwin是全球市场排名第一的数据建模的产品,像美国银行、摩根士丹利、迪斯尼等世界500强大部分企业都是我们的客户。"王琤表示他过去十年带领的ERwin研发团队获得了世界500强企业的长久信任。

在中国,ERwin数据建模产品也被运用在数据环境复杂的大规模企业,如建设银行、中国航空、深圳证券交易所、上海外汇交易所等。王琤解释,"只要你的企业规模很大,数据环境很复杂,都需要我们这个东西。"数据环境复杂,这是ERwin猛然击中的行业痛点。

所谓"十年磨一剑",这十年呕心沥血研发的成果中,有哪些能够为如今Datablau提供借鉴?

"我以前在CA有三个美国的专利,关于非关系型数据库如何建模,及关系型数据库到非关系型数据库之间数据如何转换、迁移方面,"王琤回忆他在CA那十年所收获的累累硕果,为现在创立Datablau奠定了极其重要的技术基础。王琤进一步细述,"Datablau团队了解数据库的所有重要特征,table、column、partition、index、primary key,以及它们的部分业务属性,这是我过去十年在做Erwin时的一个积累。"

打破数据"孤岛"

实现数据的流通、互连

为什么Datablau能专注做好数据准备?

"我们的强项在于对每个数据库的特性足够透彻地理解",王琤给予这个简洁明了的理由,但这个原因的背后其实并不简单。

Datablau在数据准备此阶段中,充分理解Oracle、DB2等数据库的分区方式、数据特性等方面。打个比方,若Oracle的分区方式以及数据特性,若换到DB2会呈现什么样的方式?数据类型如何转换?它的存储方式是按列存储还是按行存储?这些就是Datablau最擅长的拿手好戏,凭借对每一个数据库的透彻深入理解,Datablau才顺理成章地实现它数据准备的角色,把企业每个业务部门的数据从不同的数据库抽取出来,根据概念等分类进行整合。从而实现企业不同部门之间数据的流通、互连,打破数据"孤岛",为企业的下一步数据分析等工作奠定坚实基础。

一个较大规模的企业,通常会有上百个业务系统、成千上万张表单,如此复杂的数据环境,若单靠人工整理,付出的时间和人力成本想必是难以估计的。

在CA工作期间,王琤曾经利用数据建模来帮助中国建设银行(以下简称"建行")解决数据治理这个难题。建行业务系统里存在很多设计完全的不同数据库,利用其技术把建行100多个业务系统的数据进行整理搭建新的企业级统一数据架构。

王琤讲述了一个案例,"我们抽出来7千多张表。这7千多张表里有100张表都称为‘客户’, 但只有80张表来自于CRM、ERP系统,是真正意义上的客户。另外20张表也称为‘客户’表单,来自于HR部门系统,但HR系统里的‘客户’其实是公司员工,并非真正客户。"同名异义、异名同义的问题非常普遍。 但往往需要巨大的人力成本。

如果要用传统的人工方法去完成这项任务,则需要IT人员与业务人员同时合作在表单里对数据进行挑选、归类和整合,工程量可见十分庞大。

当企业安装部署了Datablau之后,IT人员只需将各数据源与平台进行连接,自动获取或手动设置存量/增量数据模型后,下一步就让数据科学家进行业务视图设计和样例数据分析设置,完成了数据准备后便自动生成可视化的数据报表。王琤对此曾表示,"能够将各环境下的数据放在同一平台,并用可视化工具进行处理分析,可以极大减少企业在这方面的资源投入。几分钟抽取数据模型、即时跑出数据分析报表。"

王琤称Datablau可以将两年时间投入约3亿元的某金融数据治理项目,缩减到只需要约两个月时间,再加少量额外人工辅助便能完成所有数据抽取和整合工作。

此外,王琤还表示,"经过数据准备整理好的存量数据集不仅可以交付给企业,也可‘喂’给BI与AI产品,进行深度分析和挖掘,产生深度业务价值。这是Datablau区别于市场上专注数据分析的大数据产品的特别之处。"

Datablau要为企业淘更多的"金"

王琤把Datablau比喻为"是挖掘金子的工具,帮助企业去淘更多的‘金’。"寓意是为更多企业挖掘出可利用的数据,并快速实现数据的价值。

目前,最新版的Datablau v1.5版本已经开放了免费试用。Datablau在产品不断迭代和推广过程中,自然而然地受到了资本的青睐。

一个值得关注的消息,Datablau在2017年2月中旬获得了美国中经合集团的天使轮融资,融资金额为600万元。

Datablau通过软件产品提取企业数据资产地图,再进行敏捷数据准备和分析为企业提炼产数据价值,让数据可见、可识、可控、可融,更易挖掘价值。

大规模的企业,数据环境复杂,数据需要流通才能实现其价值。因此,Datablau瞄准这一行业痛点,启动了To B的商业路线。

私人订制,不仅流行于To C,同样也适用于To B。对于不同的企业数据状态,Datablau会为它匹配相对应的datablau产品。王琤表示,"数据分几种阶段,第一种是企业数据已经收集完毕,正在做数据仓库的阶段,我们会为这种企业提供数据敏捷准备版本。"在数据敏捷准备版本中,Datablau的角色更像是一个数据高效搬运工,把所需数据进行集成、转换、清洗,最后搬到某个目标数据源里,从而为IT人员提高业务效率。

第二种企业如果在数据仓库建完了的,Datablau会为它提供数据交付版本,数据交付版本主要为企业不同部门的数据进行数据流通和可用、可信,最终生成一个面向某个部门或群体的数据集,供业务人员下载报表和进一步数据挖掘,为企业决策提供数据支持。

Datablau针对不同数据状态的企业,为其匹配相对应的最优数据解决方案。

在炙手可热的大数据行业内,许多公司会考虑提供"一站式服务方案",但王琤有着他独特的见解,他认为,大数据技术公司不一定要做到"大而全",哪怕只是将数据资产管理这一阶段的业务做到"小而精",在市场上也能风生水起。

王琤对挑选客户企业也有周全的考虑,"Datablau的目标是做产品驱动型企业,抱着匠心打造高质量高客户满意度的产品。如果对方客户企业的刚需和datablau产品的匹配度达到70%以上,我们很乐意进行合作。"目前,Datablau最新版v1.5版本已经应用到制造业、医疗业以及金融业等行业领域,为更多不同领域的企业挖掘并实现其数据的价值,"淘"更多的金。

在今年过去的半年里,Datablau对产品发展方向进行了验证和探索,并得到一定的优化,那么在接下来的2017年下半年,王琤表示Datablau会侧重于加大对市场推广的投入,并寻求与大数据BI厂商的合作。Datablau将渗透到更多不同的行业领域,为更多大规模企业解决数据准备、数据清洗、数据交付等数据资产管理问题。

"踏踏实实地做好Datablau产品",王琤希望Datablau未来继续"专注这‘小而精’的业务领域,为企业的数据实现可用、可信,并带来更多商业价值。"

THEEND