大数据概念解析之数据仓库简介

2020-10-30 09:30

CSDN

加米谷大数据张老师

数据仓库，有一个被广泛接受的定义：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。

在大数据系统平台当中，数据存储、数据库、数据仓库是非常重要的概念，共同支持大数据存储的实际需求。在大数据处理当中，大数据存储这个环节，数据仓库技术起到重要的作用。今天我们来对数据仓库做一个简单的介绍。

什么是数据仓库？

具体来说，数据仓库就是一个数据集合，它通常具备以下特性：

数据仓库是面向主题构建的，每个主题就是一个可直接用于分析的主体；

数据仓库的数据都是集成的，它的数据来源很丰富，为了分析方便，对多种数据做了集成；

数据仓库的数据是相对稳定的，不会出现短时间内频繁更新数据仓库中数据的情况；

数据仓库的数据都是已经发生的历史事实，且保留时间较长，因此如果拉长时间线，是可以看到数据的历史变化情况的；

数据仓库的目标就是支撑分析工作，用于管理决策，使得企业获得更好的发展。

在企业的实际业务场景当中，数据仓库的核心应用场景就是数据分析。数据仓库就是面向分析构建的，数据仓库的存在就是为了更加高效方便地支撑数据分析。

数据仓库的优势是什么？

1、完全面向分析构建。

数据仓库的目标就是为了更高效方便地做数据分析，因此数据仓库整个数据的组织结构也是完全根据分析需要设计的。它是由多个面向特定方向的分析主题组成的，这样可以使得分析任务变得简单，数据更容易获取，最大化地发挥数据的效用。

2、可以处理大数据量场景。

数据仓库不需要太在意响应性能，因为它通常是用来供分析使用的，不会直接用于与用户交互的场景。因此，可以存储大量的历史事实数据，完成跨度较大的历史趋势变化的分析。

3、集成多种数据。

数据仓库中的数据，是将企业中分散的、不统一的数据，经过ETL集成到一起。这样，可以提升数据的丰富性，多种数据的融合，能够连接出新的可能性，发挥出更大的作用，分析出单个数据集无法得出的结论。

Hadoop生态下的数据仓库Hive

进入大数据时代之后，基于Hadoop基础架构，Hive作为分布式数据仓库被大家熟知。

Hive构建于Apache Hadoop之上，满足企业实际场景下的数据需求：

通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；

访问直接存储在Hadoop HDFS或其他数据存储系统（如Apache HBase）中的文件；

通过Apache Tez，Apache Spark或MapReduce执行查询；

通过Hive LLAP，Apache YARN和Apache Slider进行亚秒级查询检索。

今天的大数据概念解析，数据仓库入门，以上就为大家做了简单的介绍了。数据仓库作为支持大数据分析处理的重要一环，也是大数据系统架构当中的重要组成部分，从基础入门到逐步深入，需要不断加深理解和掌握。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

5G手机越来越厚，智能手机已穷途末路？

大数据概念解析之数据仓库简介

2024 信息化观察网

长按扫描二维码阅读原文