大数据应用数据湖与数据仓库的区别

海口达内教育
数据湖是一个公司的集中存储库,它可以存储所有关于业务的结构化和非结构化的数据。在数据湖中,我们按数据的原样来存储数据,而不进行结构化处理,然后在此之上进行不同类型的分析。

随着互联网的不断发展,大数据技术与云计算技术也得到了广泛的应用,下面我们就通过案例分析来了解一下,大数据应用数据湖与数据仓库的区别。

2345截图20211028093243.png

数据湖

数据湖是一个公司的集中存储库,它可以存储所有关于业务的结构化和非结构化的数据。在数据湖中,我们按数据的原样来存储数据,而不进行结构化处理,然后在此之上进行不同类型的分析。

当今的数字化转型实际上是将数据驱动的方案应用于业务的各个层面,从而创造竞争优势。这也是为什么越来越多的公司希望构建自己的数据湖解决方案的原因。这种趋势仍在继续,这些技能还是被市场需要的。

在数据湖领域,流行的的工具仍然是用于本地化方案的HDFS,以及各类来自AWSGCP和Azure的云数据存储方案。除此之外,还有一些数据平台正在尝试填补一些细分市场并且创建集成解决方案,比如Cloudera、ApacheHudi、DeltaLake。

数据仓库

数据仓库可以被描述成用于存储已经处理好的业务数据的传统数据库,但它针对聚合请求作出了优化。无论如何,它还是和数据湖一样,都是构建分析和数据驱动决策的基础。它与数据湖之间并不排斥,而是相互补充。

数据集市是旨在满足某种特定的业务功能要求而设计的数据仓库解决方案的后一层。数据集市具有从不同的数据源提取数据的能力,这使它成为数据仓库领域的一种增长趋势。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论