数据湖很高大上?原来就是这么回事

信息化观察网
编译
如果你对大数据有一定的了解,你就会知道为每秒生成的庞大数据量找到存储解决方案至关重要。在管理数据时,数据专业人员可以考虑使用数据仓库或数据湖作为数据存储库。为了让企业做出最优的决定,我们首先要定义什么...

如果你对大数据有一定的了解,你就会知道为每秒生成的庞大数据量找到存储解决方案至关重要。在管理数据时,数据专业人员可以考虑使用数据仓库或数据湖作为数据存储库。为了让企业做出最优的决定,我们首先要定义什么是数据仓库和数据湖,然后再对其进行比较。

什么是数据湖?

有些人错误地认为数据湖只是数据仓库的2.0版本。虽然有些类似,但它们是不同的工具,有不同的用途。Pentaho的首席技术官James Dixon因命名数据湖的概念而受到赞誉,他使用了以下类比:

“如果你将数据集市(datamart)看做是是经过净化、标准化、且方便消费的桶装水,那么数据湖就是自然状态下的庞大水域。数据湖的内容从水源头流入湖中,用户可以来检查、深入或采集样本。”

在大数据时代,数据量呈现几何增长,数据的数量、来源和类型的多元化,使得传统的“水桶”装不下了,因此需要一个可以满足存储需求的新的架构来作为大数据的支撑,即数据湖。数据湖以非结构化的方式保存数据,并且各个数据块之间没有层次结构或组织。它以最原始的形式保存数据,即不对数据进行处理或分析。此外,数据湖容纳并保留所有数据源中的所有数据、支持所有数据类型和模式,并且在准备使用数据时,才会应用这一模式(数据存储在数据库中的方式)。

什么是数据仓库?

数据仓库以有组织的方式存储数据,并且按照特定的方式存档和排序。开发数据仓库时,在初始阶段需要花费大量精力来分析数据源并理解业务流程,决定仓库中需要保留和排除哪些数据。只有在识别出数据用途后,才会将数据加载到仓库中。

数据湖和数据仓库的对比

数据

数据湖保留所有结构化数据、半结构化和非结构化/原始数据。数据湖中的某些数据可能永远不会被使用,但是会保留所有数据。数据仓库仅包括处理(结构化)的数据,以及用于报告或回答特定业务问题所必需的数据。

灵活性

由于数据湖缺乏结构化,因此更改数据的模型和形式相对容易。数据湖更灵活,可根据用户的工作需求进行配置和重新配置。由于它与业务流程的数量相关联,使得更改数据仓库的结构会变得更加麻烦和耗时。

用户

数据科学家通常能够访问数据湖中的数据,因为他们具备对数据进行深入分析的技能。从技术上讲,数据湖可以支持所有用户,并且可供所有用户使用。特定业务用户会使用数据仓库,从数据中汇报和提取数据仓库建立时所界定的数据;数据科学家需要跨越数据仓库的界限,从而从数据中收集新分析的数据,而对于他们而言,这个限制通常过于严格。

安全

由于数据仓库比数据湖更成熟,因此数据仓库的安全性也更加成熟。还有人担心,由于所有数据都存储在数据湖中的一个存储库中,因此它也会使数据更容易受到攻击。但是由于只需要一种存储和管理方法,所以它肯定会使数据审核和合规性变得更容易。

数据湖和数据仓库是不同的工具,有不同的使用目的。如果你已经建立了数据仓库,则可以选择建立相应的数据湖,以解决数据仓库遇到的一些限制。要确定数据湖或数据仓库是否最适合你的需求,你应该从想要实现的目标开始,并使用数据存储库来帮助你实现目标。

原文作者:Bernard Marr

THEEND