阿里云王伟民:数据库的策略与思考

王伟民
是否属于“云原生”,应以客户业务场景和需求出发去考虑,而非从技术实现上去判别,毕竟很多客户的要求是不一样的。比如拎包入住酒店,今天入住这个酒店,明天入住那个酒店,但酒店并不能不让客户走。

2345截图20211028093243.png

本文根据DTCC 2021大会现场采访整理。采访人为IT168企业级&ITPUB执行总编老鱼,受访嘉宾为阿里云数据库事业部产品与解决方案部总经理王伟民。

记者:请介绍下您目前在阿里云数据库所负责的日常工作。

王伟民:首先介绍一下自己,我先后在Oracle、Microsoft、华为等企业从事数据库相关的工作,担任过不同的岗位。今年加入了阿里云,目前我主要负责四个方面的工作。

第一部分是产品管理,和我以前的工作是完全一样的,主要是以市场、客户需求为导向,去看我们需要研发哪些产品。

第二部分是解决方案,为产品的商业成功负责,包括行业、区域和国际市场。

第三部分是产品体验,包括文档、体验设计等,主要是为了让用户有更好的体验并更高效地使用我们的产品和服务。

第四部分是品牌和生态,品牌方面包括要持续对行业内构筑产品的影响力。生态方面,数据库作为基础类软件,在PaaS层,不像计算、网络存储、安全这些通用能力,大家都需要;也不像SaaS应用那样自带流量入口。所以,单独去推广数据库不是特别高效,我们需要通过生态的方式去做市场、推广,和伙伴们一起去更快速地推广和复制到应用场景。

以上是目前我在阿里云的工作。

记者:相当于OLAP、OLTP还有NoSQL,研发针对各自产品做集成与研发,你这边就变成产品化的。

王伟民:对,客户需求都是到我们团队。我们会去规划产品,研发来承接需求、投入资源、按产品规划的路标来推动产品上市。另外产品的商业模式、定价等GTM工作,也都是在我们团队负责。

记者:您今天的演讲主题是“云原生数据库2.0,一站式全链路数据管理与服务”。为什么会选择这个主题,这个主题您觉得对于参会的人来说,它能够获得哪些收益?

王伟民:我们首先强调的是“一站式”,这个“站”是“One Stop”的意思,不是“技术栈”的“栈”,这个叫“Stack”。我们现在做的是云服务,各类引擎上架后实现了多样化的供给;每一款产品或引擎是为特定的用户场景做定制优化的,这也是经典的General Purpose(GP)和Special Purpose(SP)之间的trade-off。有很多公司尝试用General Purpose的方式解决所有的问题,但目前为止,它可能在某些场景里是最优解,但在所有其他场景里都是次优解。当然General Purpose有个好处,对产品研发团队来说,它的ROI是最高的,持续性投入打造一款产品试图解决所有场景。

但其实存在一个问题,我们看到有很多为专用场景设计的产品,比如缓存、嵌入式的IoT场景、边缘场景、多模,都不是GP产品能很好地解决的。到目前为止,千行百业都在做数字化转型和上云,想用一款产品解决所有的问题,从哲学上来讲,这是一种过于理想的状态,是不可能实现的。我们想用的方式是用产品和产品的组合去满足各类业务场景的需求,相当于我们是GP+SP的模式去做。所以这是我们选这个主题的原因。

其次要强调“全链路”,我们做过调研,绝大部分企业里,各类产品和解决方案都是非常纷繁复杂的,但目前它们之间的拉通和协调仍存在很大问题。我们用云的方式可能能解决“烟囱”的问题,但其实只是解决了资源的“烟囱”,业务和数据上仍然没有打通。既然数据是新的生产资料,就需要有一个数据的操作系统,我们想用DMS来实现DataOS。这是我们的想法,也是我们一直努力的方向。

到目前为止,丰富的业务场景以及里面不同的业务负载特性,使得很难用一款产品最终解决所有问题,这是我们最大的洞察。所以我们希望可以带来实际的变化。

2345截图20211028093243.png

记者:您正好提到了这个观点,和我下面问到的趋势是一样的。专用数据库、多模数据库方面,显然你们的专用数据库是类似于亚马逊的,而非像微软的“一库包打天下”——一套产品应用于所有场景。现在所有的厂商其实都在聊云原生,你们的云原生架构在演进时候有什么不一样吗?

王伟民:首先,像微软和Oracle其实只是品牌比较聚焦和统一,但它其实也是GP、SP相组合的,Oracle有比较多的品牌,比如面向缓存场景的叫Oracle TimesTen,面向高可用场景的是Oracle RAC,所以Oracle有一级品牌和二级品牌之分。同样微软针对分析、报表、集成等有SSIS、SSAS、SSRS,面向多模有Azure CosmosDB……

所以我认为大家之所以不约而同地选择了“迈向云原生2.0”这条路,核心原因是大家都看到负载的多样性对底层基础软件的设计太挑战了,无法用一个架构、一套code去cover所有。在云原生1.0那个既往时代,大家其实已经把产品化和服务化做完了,基本都已完成基础设施池化了,在管控上做到多租户、按需使用、按量计量,而且能够做不同程度的扩缩容。

而云原生2.0时代,更看重产品与服务之间的联动。在我刚才的分享中(第十二届中国数据库技术大会)提到七个客户案例,其中没有一个场景是用单款产品去应对的。为了满足客户的转型需求,基本都需要交易型、分析型、数据实时入仓、库仓一体等很多需求,都需要实现数据的发现、洞察和价值变现。

在我们看来,云原生2.0时代可能会朝两个方向演进,第一,持续不断夯实、增强单品的差异化竞争力。第二,多种产品之间的高效协同和体验提升。

记者:单品方面,要继续强化自己的优势。整体上,你们也会强调整体解决方案的优势,不管是OLTP、OLAP还是NoSQL,所有产品寻求更好地协同。

王伟民:我们现在有一个想法,即把解决方案产品化。比如客户想要一个在线电商系统,我们可以直接提供一个有缓存和交易,中间带着链路,像一个小型数仓一样已就绪的系统。因为起步时可能没有那么多数据,所以这个数仓是可扩缩容的。

虽然是在云上,但也是垂直的,业务是烟囱,资源是水平拉通的,这是我们正在做的尝试。

解决方案产品化,其实业界有很多公司都做过。我们可能也只能在通用方案上去做,想要结合行业领域know how去做,可能还是比较困难的。

记者:如果要用一个比较简单的方式、一句话两句话去描述“云原生数据库2.0”,应该怎样去说呢?让别人一下就能理解“云原生数据库2.0”的概念。

王伟民:“一站式全链路”还是相对偏技术术语,如果用业务术语来讲的话,应该是多引擎的高效组合,以满足客户多样化的业务负载。另外一种提法是“全场景”、“数据全生命周期”,但这些相对偏Marketing术语。

记者:对,对于非技术人员来说,理解起来还是有点晦涩。下一个问题,其实来源于TiDB黄东旭曾提到的一个观点,他认为目前所谓的云原生数据库都不是真正的云原生,凡是能回归到线下部署的都不叫云原生。您怎么看这个观点?

王伟民:这个观点挺新颖的,之前确实没听说过。我们遇到过一类上云的客户会要求数据可回流、随时可以下云。客户有这个诉求的核心原因是担心云是一个超级的lock in,担心“我上了你的云,除非我挂了,否则今生今世在你这上面”。

在与客户交流的过程中,会发现有些客户比较抵制差异化特性,担心因为差异化特性而对某厂商产生依赖。当然,在这方面也有很多不同的技术流派,有些客户在写SQL时候用的并不用数据库专用语法,它中间有一层抽象层,可以适配底层的MySQL,也可以换成SQL Server或者Oracle,对他来说不可见。业界其实有这样的产品,比如Source Pro,能够对上层应用屏蔽底层数据库的差异性,所以我不太赞同这个论断。

数据库产品化和云化应该是两个阶段,它可以是一个产品,这个产品可以provision在on-premise,也可以在云上,但是在云上能够发挥资源弹性伸缩等很多云上所特有的能力,但并非只能在云上。

比如,RDS MySQL不能下云吗?它一定能下云,如果按照刚才的标准,它就不是云原生数据库。但如果给它做了解耦,变成AWS Aurora那样,计算和存储解耦了,Aurora是很难下来的。

是否属于“云原生”,应以客户业务场景和需求出发去考虑,而非从技术实现上去判别,毕竟很多客户的要求是不一样的。比如拎包入住酒店,今天入住这个酒店,明天入住那个酒店,但酒店并不能不让客户走。

记者:你觉得他的说法是否是基于国外市场得出的结论?像您说的这种既能上又能下的,是否是国内市场特有的需求?还是说,这是全球市场的需求?其实最近我看到一篇文章,其观点是“国外都不用分布式,所以国内要用分布式”。

王伟民:关于您提到的,这是否是国内市场的特殊情况?我觉得,未来公有云成为主流,一定会出现用户如何考虑平台中立、云中立的问题。现在已经看到很多类似需求了,比如客户的主站在A云,容灾在B云;另一种是交叉的,一部分业务生产在A,备份或Standby在B,另一部分业务主站在B,备站在A。客户的需求在将来可能会持续不断的变化,我们的理念是“客户第一”,这是我们必须考虑的事情。东旭的观点目前来说比较新颖,但你说TiDB可不可以线下部署?肯定是可以的。

关于最近看到这篇文章指的是InfoQ最近才实现底层数据库的分库,之前都是单库。就产品及其架构实现而言,首先云厂商本身是有目标市场选择的,比如说AWS不做线下市场,它不做on-premise部署,最多有一个Outposts边缘部署,只提供受限的能力,可能是他客户选择的问题。

2345截图20211028093243.png

记者:东旭的观点比较超前,他们好多客户在国外,国外的市场对于公有云的拥抱程度很高,但对国内来说,显然对线下部署、混合云、私有云等,要比对公有云的拥抱程度更高,至少在金融、电信等行业贡献大户来说,相对来说是这样的。

王伟民:在公有云的大趋势方面,我的判断跟东旭是一样的。对于国内金融、电信行业很大业务负载还没有在公有云上,我认为可能有两个原因:第一,国内在信息安全、行业监管、合规遵循等方面的政策要求;第二,客户在系统软件运维管理方面的自主可控需求。

其实你说在公有云上就不安全吗?不一定的。美国国防部100亿的JEDI项目都是在公有云上,美国第一大银行CapitalOne是100%在公有云上的,没有用私有云。我认为,公有云的未来是比较乐观的。很多行业都需要一个过程,上云可能是长达十几年的过程,赛道很长。

记者:因为国外不用分布式,所以分布式就没有意义或应用价值吗?

王伟民:这又是一个特别值得讨论的问题,我认为复杂度是守恒的事情。国外,比如GitHub之前没有用分布式,但不代表这部分工作就不做了,它的这部分工作可能在应用层、中间件层做了;只不过从数据库角度来说,我们希望把复杂留给数据库,把简单留给应用。我们希望分布式数据库能像单机一样去做应用开发、去做管理运维,这样应用就不需要关注底层数据库容量、事务、伸缩扩容、一致性备份等问题。

其实国外数据库在并发用户量和用户规模方面,没有国内这么凸显,毕竟我们有人口红利。比如阿里的双十一“剁手节”,可不可以把支付系统用Oracle数据库支撑呢?肯定可以,把底下的OceanBase换成Oracle也可以,但这样TCO太高。

因此,到底是用分布式产品去解决,还是用分布式解决方案去解决,这又是另外一个思路。比如应用接分布式中间件,比如ShardingSphere和底下接单机数据库,都一样可以做这个事情。

我觉得并非说国外没有用它,它就没有意义,而是看这些投入是在哪个层面去做的。比如我认为从产品的维度来讲,随着使用量的增加,边际成本是持续下降的,所以我认为做这件事情是非常有意义的,比如可以让应用不用关心柔性事务、业务冲正等,这个复杂度都在数据库层面处理了,所以我觉得分布式数据库还是非常有意义的。在国外,可能不需要用分布式数据库,但可以把分布式数据库退化成单实例使用,在Oracle RAC也可以只用一个节点,这都是没问题的。

记者:从您的角度来说,阿里云数据库从技术、产品、商业、生态等各个角度,相对于其他竞争对手,它的优势在哪?

王伟民:首先,针对我们产研团队,我认为第一个优势是从组织上的高度统一和一致,我们能做到力出一孔。李飞飞既是阿里云数据库事业部的一号位,他同时又是达摩院数据库与存储实验室的一号位,所以相当于他统领了整个阿里体系所有数据库的产品、研发和预研团队,在产品的战略、沟通、市场等策略方面是高度一致的,这是第一个优势。

第二,阿里确实有先发优势,我们很多客户不是才上云,比如基于IDC,刚上云。而是day one就是长在云上,生于云长在云。

第三,在产品方面比较聚焦,我们没有非常多的产品,我们的产品分成三大类:开源托管类、商业产品托管类和自研产品类,核心是希望聚焦,而且针对这三类产品,我们有不同的策略。

比如开源托管类聚焦的是简单易用、安全可靠和高性价比;商业产品主要利用它的开放生态,在这方面,我们主要是解决业务合规生态多元的问题,我们和SQL Server、MongoDB是直接商业合作的,这些是需要阿里云持续地去合规的;自研产品,我们聚焦四个大的品类,PolarDB、AnalyticDB、Lindorm、Tair,并没有很发散。

讲到生态,其实各个厂商做生态的方式是不一样的。有些友商虽然在做数据库,但并不是要把数据库作为一个独立产业来做。通过打造一个第二平面去解决“卡脖子”的问题,这也非常了不起,我们也需要这样的技术。

阿里在做生态方面,尤其我们更多地是希望以“被集成”的方式来做。生态要开放繁荣,最主要的就是要能够和伙伴实现利益分享,如果做不到这一点,我觉得生态是做不起来的。所以我们一直在探索怎么样让生态的参与者和我们一起,去把饼做大,同时去看如何更好地兼顾各方。

生态方面我们也一直在持续投入,比如分销的伙伴、SaaS被集成、ISV、交付伙伴、培训认证等都在搞,但的确我们这一块的投入量还需要持续加强。

记者:上个月阿里媒体沟通会上,我采访李飞飞,他提到你们要去打线下市场,因为他觉得线上格局基本已经定了。针对线下市场的数据库领域高端客户,阿里现在去打线下这块儿市场,准备怎么做?你们的差异化优势在哪儿?

王伟民:首先,线下市场的需求是刚性的,这是客观存在的。目前,我们积累了包括运营商、金融行业、政府等很多客户。大家都在讨论一个问题,如果重新再做一次,是原封不动地换平台还是在原有基础上做转型升级?

目前我们看到,包括运营商在内的客户有一个普遍需求,今天我也分享了一个运营商案例,它的业务系统(包括boss系统)都直接云化了。在这个过程中,他们要将包括“云”在内的很多理念、对上层应用做“泳道化”切割、微服务化,以及整个运维开发都要结合起来,我认为这个替换不是单纯地去拿一个产品替换,而是用解决方案替换。

第二,在政企市场去和Oracle直接PK,比方说性能,我们认为这个可能是被误导的。因为用户在选型的时候,性能不是唯一因素,还有非常多其他的因素。我们希望可以用DBStack敏捷交付,无缝集成,将这样一个轻量化、可以部署到客户本地的云,把用户可能会用到的数据引擎都放上去。现在,广东移动、安徽移动等客户,都是用了这些产品。

相比友商,他们可能会有他们的灵活度,我们也有自己差异化特色。比如友商明确了不做私有云,就会把很大一块市场放出来,也势必有很多友商去填补这个市场空白。

关于李飞飞提到的这一点,我理解我们要去做的核心原因有两个:第一,这是高端市场,也是标杆,是摆在明面上的市场刚需。第二,这些业务场景和业务负载对牵引产品研发、检验和持续提升产品稳定性、可靠性都非常有帮助。我觉得结合这两方面因素,我们肯定会坚定不移地去做。

记者:我们看到的这些所谓的趋势,比如云原生+分布式、软硬一体化、湖仓一体、HTAP等,它本身都是一种融合,背后是用户简单化需求的推动。对于用户来说,管理一个数据库和同时管理四个数据库的复杂度、难度肯定不一样。趋势上,大家希望简化,但我们看到大家还是专用的场景用专用的数据库,这个是不是有点矛盾?

王伟民:我们要解决的很多问题其实都是多变量的。首先,想要兼顾所有变量,是非常有挑战性的,以及这些变量之间要如何排优先级,比如可靠性、开发、管理、运维等一系列因素,都要综合考虑。

其次,既然通用产品无法满足需求,那就用“通用+专用”的组合去搞,又要降低复杂度,怎么办?我们用DAS、DMS等技术手段去解决。我们希望DAS可以把以前传统DBA的补丁升级、日常巡检、参数配置或调整、备份告警等日常工作用AI的技术手段来解决。现在有一个特别好的趋势,我们已经积累了海量的数据库负载、水位线、慢SQL治理等最佳实践,可供我们去做这些工作。和深度学习一样,杨立昆老师90年代刚提出的时候,它只能在90年代美国邮政里面检测邮政编码,不像今天有非常广泛的用途,主要是数据和算力上来了。

回到刚才讲的问题,这个矛盾可能放在以前的确是难以逾越的。但在今天,我们看到解决的契机了,我们可以用AI4DB的方式来解决。这样,人就可以更多的聚焦类似于Application DBA、逻辑设计、数据的data placement等高价值的工作,常规工作让程序自动化来做将两者有机的结合起来。

记者:这次云栖大会上,你们开源PolarDB-X这样一个分布式数据库,我可以理解为,这是你们进军线下市场的组合拳吗?

王伟民:对,可以理解为这是其中一个关键的action。国内做数据库的各参与方热情高涨,厂家非常多。但对很多企业而言,他们非常担心你这家公司有多大规模?我们是不是会贡献你50%-60%的营收?他们其实非常担心数据库公司的可持续经营能力,这其实还是信任的问题。开源在我看来包括两个方面:第一,用开源的方式、开放的心态去解决开放的问题和挑战,吸引更多人参与;第二,开源相当于智力的众筹。

另外,开源也表示一种自信,是一种可以让用户检视质量的方式,这样能够把信任建立过程中的挑战大幅度降低。

最后,当然我们也希望通过这种方式做生态,比如应用的生态、人才的生态。

记者:所以,开源只是一种策略,它并不是决定数据库公司、厂商能否在未来竞争中脱颖而出的必要条件?

王伟民:对,它并不是。有很多开源产品,可能叫好,但未必叫座(商业化成功)。也有很多产品,从不叫好也不叫座,直接就玩不下去了,它就只好Open Source了。我们希望用这种方式持续去做,不代表这样做了就一定成功,因为的确有太多开源项目,最后其实是商业化不成功的。不光在数据库领域,其他领域也一样。比如以前有OpenOffice,Open Solaris。即便我们严肃认真地去做Open Source,中间也有很多需要学习的地方和规避的坑,这期间要做的事情非常多。

记者:国产数据库落地应用越来越多,但实际上更多是存在于边缘业务上,核心业务相对来说比较少。很多企业在部署国产数据库的同时,还在续费Oracle数据库,甚至到现在为止两条线并着跑。这种现象是由于客户心里的顾虑——怕国产数据库撑不住,还是目前国产数据库在承担高端、核心业务上,确实有一定的问题?

王伟民:这两方面因素都有,而且还不止这两方面因素。确实很多客户在尝试用更多的供应商,包括国产数据库厂商,同时持续不断地使用商业数据库的产品,这是目前的现状。原因有几方面:

第一,商业数据库经过几十年的发展和海量用户(上百万)长期真实业务负载的考验,它的企业级特性、稳定性、商业模式、服务等各方面,都是经过考验的。不管用什么产品,用户业务系统都能高效的运转起来。

而目前国内很多厂商,无论是从研发的投入、产品的成熟度,还是产品资料、生态、人才等各方面,与商业数据库相比还是有差距的。这是客观事实,我们也应该正视这个客观事实。人家干了五十年,我们干了十年,投入比人家少很多,不可能就超越人家,这不符合客观规律。

第二,的确有很多业务场景不需要那么高端的产品。这句话有两层意思,一是目前很多产品在企业功能、特性、完备度、性能、稳定性等各方面(与商业数据库)有差距,但不代表这个差距不可逾越,只是需要时间去逾越。二是很多业务场景里,很多商业数据库的功能、特性其实都是没有被用到的也不需要用到,这个是有统计数据表明的。

记者:之前我了解到,使用Oracle的绝大部分企业可能连一半的功能、性能都未必用得上,对于很多企业来说,性能问题可以被很多架构很好地解决。

王伟民:在很大程度上,我们的产品对很多核心业务场景、业务典型负载来说,都是够用的,但是我们产品的稳定性或其他方面,可能还有较长的路要走,还需要接受海量用户长时间、持续的负载考验。

记者:之前我看到关于国产数据库的目标分为技术目标和市场目标。市场目标,第一个是实现国产化的自主可控,第二个是走向全球。从技术目标来说,分为四个目标:人有我无、人有我有、人无我有、人有我优。您觉得,目前整个国产数据库市场从技术目标、市场目标来说,分别是什么阶段?

王伟民:我觉得从技术目标、功能特性角度来讲,可能有一些特性是人无我有的,但对于很多普遍需求的特性、共性,我们还处在追赶和补充阶段,“人有我有一部分”或“人有我优一小部分”,不同厂商在清单的完备程度上不太一样。

市场方面差的就更远了。如果统计线上、线下市场,阿里云在中国做到了第一,超过了Oracle。但如果回到全球视角,根据2020年Gartner统计数据,微软第一,Oracle第二,阿里云排到全球第七,在To B、云和数据库市场,我们和领先企业还有不小差距。

举个例子,Oracle一个季度的净利润差不多100多亿美金,就算数据库只占40%,除去它的标准服务,可能也有几十亿美金,这是个不得了的数据。中国的软件业百强的净利润加起来可能都没有这么多。

记者:目前,你们帮客户去O、去MySQL、去Teradata等的时候,会面临哪些挑战?你们通常是以什么方式帮助客户?

王伟民:目前最大的挑战是生态层面的。没有哪个客户的业务系统能做到drop-in replacement,北向可能有应用侧,纵向可能有数据的集成,还有南侧可能有操作系统、硬件等一系列的适配。你要想去替换的时候,很多客户会说“不光要替换这个产品,还要保留原来的管控、开发、运维、应用等一系列流程的对接。所以,生态方面是一个很大的挑战。

第二是人才方面。很多企业在人才方面要求有一定的专业积累,换产品可能需要有一个学习的过程,对人才来说,要降低学习曲线的坡度,学习成本不要太高。所以我们在兼容性方面,要做很多工作。关于兼容性的工作又是动态移动靶,今天做到了某个点,被兼容的对象又往前走了,又要继续去做。兼容性工作,做到90分和80分的区别不大,但是从90分到95分工作量巨大,要从95分到100分几乎是不可能的任务。所以我们在想是不是要跟随,哪些方面我们要跟随,哪些方面我们要用别的方式来替代——或者干脆不考虑兼容性了等等,这些都是要思考的问题。当然,这中间的取舍是非常难的。

记者:今天的采访就到这儿,感谢你的分享。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论