非结构化数据爆炸式增长,对象存储前途无限光明

BitMan
随着互联网不断发展、5G的到来和使用,非结构化数据将继续呈现更迅速的爆炸式增长,这为企业数据利用带来了严峻的挑战。而对象存储,正是为应对爆炸式增长的非结构数据而产生的。

根据Gartner的《 2018年分布式文件和对象存储魔力象限》,非结构化数据每年以50%的速度增长。随着互联网不断发展、5G的到来和使用,非结构化数据将继续呈现更迅速的爆炸式增长,这为企业数据利用带来了严峻的挑战。而对象存储,正是为应对爆炸式增长的非结构数据而产生的。

什么是非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不适合存储在行列式的电子表格或者数据库中的数据。诸如视频,音频或图像文件之类的内容,以及日志文件,传感器或社交媒体帖子等等都是非结构化数据。再加上所有从物联网流出的机器之间或者传感器之间的数据,都是非结构化数据。非结构化数据并不是数据内部没有结构,就像视频或者音频文件都有其编码方式;非结构化数据是指数据之间的联系性较弱、数据查询较为复杂等,非结构化数据是各种不同的应用程序创建的文件的松散集合。

非结构化数据正在发生变化

非结构化数据正在发生变化。现在的数据大多是大型媒体文件,以及来自IoT设备和业务系统的数十亿个小文件,以及产生这些数据时随之而来的日志文件等,海量数据库和数据湖在某些场景下可以相应较好的管理这些数据,而随着数据规模的不断扩张,它们也会心有余而力不足。

现代企业希望将各种类型的数据存储越来越长的时间,以便更深入地分析,来推动研发更好的产品、提供更好的客户体验、提高企业产出效率。由于数据类型庞杂而碎片化,以及随着时间不断累积更多数据,对非结构化数据的访问也在发生变化。海量的非结构化历史数据和新产生的数据需要存储在合理相应的存储中,以便可以达到轻松搜索,分析,处理、获利等目的。通常,需要使用少量的存储空间来存储描述这些非结构化数据的数据,描述数据的数据被称为元数据。在访问数据时,通过元数据进行索引,能够快速访问相应的非结构化数据。

对象存储的兴起

对象存储最早由Amazon公司提出和使用,目前AWS S3(Simple Storage Service)已经成为事实上的行业标准,几乎所有的对象存储产品都会兼容该API。

随着业务的发展,企业需要管理急剧增加并且孤立的大量的数据,这些数据来自多种应用程序和业务流程。现在,很多公司都面临着碎片化存储产品带来的挑战。这些产品不仅增加了业务应用程序的复杂性,还减缓了其创新速度。对象存储能够提供可大规模扩展且经济高效的存储方案,以原生格式存储任何类型的数据,从而帮助企业打破各种限制。

对象存储的优势在于可扩展性和元数据管理,以及其相对传统存储低廉经济的价格。传统的网络连接存储系统无法满足如此庞大的数据存储的扩展需求,尤其是在元数据管理方面的能力欠缺使得上规模数据访问成为瓶颈。

对象存储通过将文件管理与底层块管理分离而实现其可扩展性。每个磁盘都使用标准本地文件系统(例如ext4)进行格式化,在其上搭建对象存储服务。每个文件都是对象,通过将文件划分为底层块并本地文件系统上,对象存储只需要管理更高级别的内容就可以。这一分隔层使文件查找表保持在可控大小,从而在数据不断增长中也不会降低性能。

为了最大程度地利用存储空间并且保证数据可靠性,对象存储使用一种称为“纠删码”的技术来保护数据。纠删码(erasure coding,EC)是一种数据保护方法,它将数据分割成片段,把冗余数据块扩展、编码,并将其存储在不同的位置,比如磁盘、存储节点或者其它地理位置。当某些磁盘、节点甚至其它地理位置的site发生故障,只要在纠删码容忍范围内,都可以恢复出原始数据。

结论

数据在变化。非结构化数据的增长速度快于结构化数据,其作用对于提供业务洞察力和价值至关重要。当下和未来,数据都是业务的核心。无论是可扩展性的缺失,还是因元数据不足而导致的查询性能的下降,都会直接影响到数据的灵活树勇,从而影响业务发展。随着我们迅速接近Zettabyte时代,企业或公司等正在重新思考架构改革。对象存储的真正价值就在于能够高性价比的良好应对数据的爆炸式增长和快速查询需求,几乎每个组织都将从中受益。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论