亚马逊云科技顾凡：我们的智能湖仓是架构，而非产品，更非湖仓一体

2021-07-26 16:08

数据猿

陆易斯

亚马逊云科技智能湖仓架构不是简单地将湖与仓打通，而是将湖、仓与专门构建的数据服务连接成为一个整体，数据在其间无缝移动。

本月，亚马逊创始人贝索斯正式宣布卸任CEO一职，将大权交给AWS CEO安迪·贾西(Andy Jassy)，后者用了不到20年时间将AWS打造成全球最大的云服务提供商，亦是亚马逊最大的利润贡献部门，去年营收达453.7亿美元；AWS还曾被知名投资银行Cowen分析师John Blackledge估值为令人难以置信的5060亿美元，排在全球前10位。

AWS今年有了自己的中文名称——亚马逊云科技。它在中国数据管理市场的表现也是不凡。根据国际权威分析机构弗若斯特·沙利文Frost&Sullivan发布的《2020年中国数据管理解决方案市场报告》（后简称《报告》），针对成长指数、创新指数、基本指数三大维度，对各厂商数据管理解决方案竞争力进行了评估，亚马逊云科技综合实力排名第一，且三项指数均名列第一。

亚马逊云科技已开启“2021亚马逊云科技中国峰会”，该峰会在技术方面设定了七个主题，而其中“智能湖仓”是今年新设定的主题。关于“湖仓”话题本身就是今年同行们竞相讨论的焦点。近日，数据猿联合业内媒体，就“智能湖仓”为主题，采访了亚马逊云科技大中华区云服务产品部总经理顾凡，并对“智能湖仓架构如何助力企业挖掘数据价值、满足客户数据融合的需求、推动企业向智能化转型”等话题进行了访谈交流。

从数据仓库到智能湖仓的前世今生

顾凡引用了《经济学人》在2017年刊载过的一句话：“世界上最有价值的资源已经不再是石油，而是数据。”这样的论断在今天已经成为现实。

然而，如今挖掘数据价值可能没以往那么容易，面临着三大现实挑战：首先，今天每个小时产生的数据比20年前每年产生数据的总和还要多。2010年，Pentaho首席技术官James Dixon首次提出数据湖的概念，当时是针对日益增多的大数据存储需求，除了结构化数据以外，还有海量的非结构化、半结构化的数据，要把这些数据集中存储在被称为数据湖的地方。在传统数据库和数据仓库阶段，数据是经过整理、清晰易懂的，而大部分数据湖里的数据是不经处理直接堆砌的，那么数据湖就有可能变成“数据沼泽”，筛选难度变大。

来源：沙利文、头豹研究院

顾凡还补充了两点：“如今比过去有更复杂的使用场景，不同分析场景下的需求更加个性化和定制化，数据湖里的原始数据难以直接利用；对实时数据快速决策要求提高，过去隔几天跑报表写出一个报告习以为常，现在决策速度比以往加快了很多，有些决策是分钟级的，甚至在一些实时流分析中实时就应该给出决策。”

表：数据仓库与数据湖对比，来源：亚马逊云科技

因此，把二者连接起来的Lakehouse（湖仓架构）应运而生，将数据湖与数据仓库的优势充分结合起来。客户仍将数据存储在数据湖中，同时可以使用数据仓库的多种专用数据服务，从而快速、敏捷地作出决策，获得市场上高性价比的竞争优势。顾凡把Lakehouse做了形象的比喻，就好像湖边搭建了很多小房子，有的负责数据分析，有的进行批处理，有的来检索音视频，而这些数据源流，都可以从数据湖里轻松取得。

沙利文和头豹研究院在《报告》中表明，如今数据湖和数据仓库的边界正在慢慢模糊，数据湖自身的治理能力、数据仓库延伸到外部存储的能力都得到了加强。在湖仓的架构下，数据变得更具资产化，从营销、研发、供应链等关键价值节点重构了企业价值链，并能够实时支持企业决策，加速了企业数据的价值创造。

图：数据湖和数据仓库作为加速器参与大数据管理，来源：沙利文、头豹研究院

不仅如此，湖仓架构对人工智能的发展更具现实意义。湖仓架构最初的倡导者Databricks首席执行官Ali Ghodsi曾说：“为什么要考虑这一架构？最重要的原因是与机器学习和人工智能有关，这对于大多数企业来说非常具有战略意义。”数据仓库不支持的那些非结构化数据，例如视频、音频、任意文本，如今这样的数据数量庞大，都存储在了数据湖中，而这些原始数据对于机器学习来说十分重要。

亚马逊云科技智能湖仓是一种架构，而非产品

亚马逊云科技作为数据管理解决方案的领导者，一直保持着行业领先地位。目前全球已有数十万企业借助亚马逊的云服务，采用智能湖仓架构，构建了他们的数据湖，同时完成其数据分析和机器学习的工作负载。在过去的半年里，亚马逊云科技与光环新网、西云数据紧密合作，发布了近40项相关服务。

“亚马逊云科技智能湖仓是一个架构，而非一个产品，”顾凡表示，“好的架构具有一定的弹性和灵活性，是可以往里面添加产品的，并有能力根据业务需求的迭代与演进，支撑十年以上，需要足以应付将来”。

那么，从数据流的角度，亚马逊云科技的智能湖仓架构长什么样呢？

来源：亚马逊云科技

首先，可以明显地看到架构最核心的部分是“湖仓存储（Lake house Storage）”，在这里，“湖”与“仓”打通，数据可以自由流动，“湖”代表了高可用、高扩展、低成本，而“仓”代表了结构化、超级复杂查询、极致性能。在“湖仓”之下是数据源和数据摄取，无论是结构化还是非结构化数据，经过摄取后保存到智能湖仓的存储层；在“湖仓”之上则是处理层、消费层，前者构建了专门的分析引擎，经过分析处理之后传递给消费层，用户在此进行交互式数据查询、BI分析和机器学习等操作。

亚马逊云科技智能湖仓架构不是简单地将湖与仓打通，而是将湖、仓与专门构建的数据服务连接成为一个整体，数据在其间无缝移动。在此过程中，首先要打破数据孤岛形成一个数据湖；其次，围绕着数据湖，在不同应用场景为用户提供相应的分析工具；接下来，确保数据在湖、仓以及专门的服务之间能够自由移动；然后，用统一的方式去管理湖里面数据的安全性、访问控制和审计；最后，采用低成本的方法将“湖仓”各自的优势有效利用起来。

“这个架构里很重要的一点是数据的无缝移动”，顾凡表示，“数据移动”是智能湖仓架构的精髓，既可以将数据湖中最近几个月的“热数据”摄取到数据仓库中；反过来，也可以将大量冷门历史数据从数据仓库转移到成本更低廉的数据湖内，同时这些移到湖里的数据，仍然能被查询使用。在这里，亚马逊云科技考虑了三种主要移动方式，也分别给出了解决办法：

1）由内向外的数据移动

客户将数据存储在数据湖中，然后将其中的部分数据移动到某个专用数据存储以执行额外的机器学习或分析处理。如想统计某个APP的日活、转化，可能会直接在数据湖中采集原始数据，然后将其中的一部分移动到某个数据仓库以满足每日报告之用。

2）由外向内的数据移动

客户将数据存储在数据仓库中，然后将该数据移动到某个数据湖中以进行分析。如客户从数据仓库中将某个地区产品销售的查询结果作为样本复制到他们的数据湖中，再利用机器学习对更大的数据集，运行产品推荐算法。

3）环湖数据移动

数据在湖周边不同的存储数据库之间传递。如客户可能将存储在其数据库中的产品目录数据复制到搜索服务中，以方便通过产品目录查询，并从该数据库下载搜索查询。

来源：亚马逊云科技

既然谈到移动和整合，有三个设计理念是亚马逊云科技所有数据分析类产品和智能湖仓架构贯穿一致的想法：一是为云优化，在亚马逊云科技的体系里，数据仓库系统都是云原生的，当对它们进行开发的时候，弹性没有限制，可以做到非常好的线性扩展；二是专门构建，由于数据处理和分析场景是多元化的，必须要专门构建不同的分析引擎；三是完全托管，针对客户业务无差别的繁重的工作由亚马逊云科技帮助他们来完成。

顾凡认为，亚马逊云科技智能湖仓未来一定会跟“机器学习”相连，并将经历三个阶段：第一阶段是数据基础设施现代化，因为传统的数据处理方式应对不了如此大规模的数据处理，也不具备成本优势；第二阶段是通过湖仓挂钩，能够对数据进行有效分析，进而让数据产生更大的价值；第三阶段是接入机器学习进行预测和推理，帮助和驱动企业做出有效的判断和决策。

“过去数据的作用是在事后支持业务的运行，一旦企业进入到机器学习阶段，数据就有可能前置，驱动业务做创新，还能帮客户想出一堆业务创新的点子来。今后考验的是业务人员能否跟数据人员配合得很好，把数据能力用起来，赋能业务的创新。”顾凡如是说。

亚马逊云科技智能湖仓瞄准的是客户需求，而非竞争对手

在分享会上，亚马逊云科技强调了“智能湖仓”架构的五大独特优势：第一，灵活扩展、安全可靠；第二，专门构建、极致性能；第三，数据融合、统一治理；第四，敏捷分析、深度智能；第五，拥抱开源、开放共赢。同时顾凡表示，亚马逊云科技的产品研发更多是瞄准客户的需求而不是竞争对手，由于竞争对手也在解决客户的问题，所以我们并不忽视市场和竞争对手。

与竞争对手常用的“湖仓一体”表述有所不同，亚马逊云科技使用了另一个词——智能湖仓。顾凡对此表示，“这种表述背后的含义是‘打通湖仓‘，并非‘一体‘的概念，我们仍然是分开的湖与仓，并不是大一统的产品，重在把两者中间的通道建立起来，数据可以无缝移动和融合。客户会兼顾两者的优势，既有很好的查询性能，数据量还能扩容更多。”

顾凡举例说：“亚马逊云科技的数据仓库服务Amazon Redshift一般存放过去12-24个月的数据，其他的数据会放在数据湖里面，如果使用有‘智能湖仓引擎’之称的Amazon Redshift Spectrum工具写一个查询，可以将10%的热数据放进仓内，90%的数据还在湖里面，Amazon Redshift Spectrum能完成跨湖和仓的查询，而这一切对客户是无感的，他们关心的只是我的东西不仅在PB级别的数据仓库里能查到，在EB级别的湖里面也可以进行查询，最终能够完成业务需求。”

如亚马逊云科技服务过的TCL集团，其内部有众多的业务部门，每天产生海量数据，首先是把所有数据都注入到Amazon S3数据湖中，消除了数据孤岛，但与此同时又需要完成大量的BI报表和分析报告，所以要把数据加载到Amazon Redshift数仓，支持各个前端系统的BI分析。那些相对冷的数据仍存储在Amazon S3里，然后再通过前面提到的Amazon Redshift Spectrum去做跨湖仓的查询。据顾凡介绍，此次TCL涉及200多个BI报表以及其他各种各样的数据，原来需要几天才能完成的事情，采用了亚马逊云科技的智能湖仓架构后，现在只需一两个小时。

对于TCL而言，打通湖仓完成数据查询只是一个开始，由于其自身的业务逐步拓展到智能家电市场，此时通过智能家电的传感器产生大量的IoT数据，大都只能存储在数据湖里，同时又需要分析用户行为、为用户提供增值服务、对机器进行运维管理等操作，此时智能湖仓架构更能发挥出作用。

亚马逊云科技服务过的另一个客户丰田，在2019年即部署了车联网服务。丰田在其大部分车里都配备了车载数据通信模块DCM，然后通过客户授权的方式把数据传至丰田互联采用Amazon S3构建的超大数据湖中，然后亚马逊云科技通过托管集群平台Amazon EMR对整个数据做ETL处理。当ETL处理结束后，就可以根据车辆不同的使用场景，对用户的行为，比如驾驶习惯进行分析，进而依据分析结果给驾驶人建议，甚至可以根据驾驶人的驾驶习惯判断其保险应该给什么程度的折扣。

当数据基础设施逐渐成熟，服务应用场景的拓展不断加速及深化时，智能湖仓的行业应用已从平台搭建向各领域的核心业务进行延伸。

“作为一家研究虚拟玩家和商品推荐算法的AI公司，我们希望专注在算法的迭代与创新上，不太想把过多的精力、人力成本投入到数据基础设施管理上面”，启元世界CTO龙海涛分享了与亚马逊云科技合作的经验，“我们正在打造游戏全生命周期的产品矩阵，用领先的AI和数据分析能力，帮助游戏快速上线，改善用户体验，提升客户留存，以期获得更大的成功。未来，亚马逊云科技智能湖仓与AI/ML服务组件的深度融合能力，能为我们产品矩阵的快速落地、规模发展提供最有力的支持。”

图：大数据管理对行业核心价值节点带来的变化，来源：沙利文、头豹研究院

“我们从16年成立到现在一直跟亚马逊云科技合作”,曾获得IDG亿元投资的数字营销创业公司驰骛信息创始人兼CEO程华奕讲道，“亚马逊云科技是我们五年创业历程最好的合作伙伴，一方面，我们数据资产采用了亚马逊云科技提供的基础架构，举例而言，我们在服务某零售客户的时候，将其所有的数据资产——几百PB的数据量都沉淀在数据湖里，既打破了数据孤岛，又可以做到自主可控；另一方面，基于亚马逊云科技的智能湖仓架构，实现全链路、全生命周期触达，包括十几个业务场景，千万级会员数据，多线程业务数据，真正形成了营销闭环。”

在顾凡加入亚马逊的7年时间里，正是AWS在中国市场高速发展的时期。在担任亚马逊云科技大中华区云服务产品部总经理之前，根据公开资料显示，顾凡还曾担任亚马逊中国区副总裁，直接操盘过电商零售等业务，这些经历让他不只有技术服务商的视角，对部分行业客户的痛点也有切身感受。

“当然不光是技术，更重要的是人和服务，需要有‘扶上马送一程’的态度。亚马逊云科技无论是数据实验室、机器学习解决方案实验室，还是专业服务，均以客户赋能为使命，让客户快速地完成从想法到原型再到生产系统，直到机器学习模型的提升，秉持‘扶上马送一程’的态度，让我们在技术之外还能走得更远。”顾凡对媒体表示。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

人工智能——处理语言的机器

亚马逊云科技顾凡：我们的智能湖仓是架构，而非产品，更非湖仓一体

2026 信息化观察网

长按扫描二维码阅读原文