当存储遇上大数据

WatchStor.com
佚名
对于存储管理者来说最重要的可能在于,这是一场进化,而不是一次变革。也就是说,那些尽快发展的企业将会取得先发优势;如果这部分企业的数据用户能够利用这一优势,他们同样能够为他们的企业赢得竞争优势。

数据存储管理带来了一些挑战。然而,将大数据和Hadoop在存储环境中有效集成能够解决这些问题。

更多信息现如今,大数据似乎无处不在,但“大”只是相对的,重点应当聚焦在“数据”部分。大数据分析需要海量数据。因此,数据的存储和保护,并维持其可用性与可访问性,需要繁重的数据管理。许多大数据平台如Hadoop,以及非关系型数据库采用的是非共享型结构。但是,这类结构可能给存储管理带来一些问题。

大多数存储专家花了数年,甚至数十年,将数据整合到尽可能少的存储中。他们告知终端用户将数据存放于一台服务器上,以方便数据备份和管理。为了在重型多租户共享存储系统中将性能和可靠性最大化,采用经过优化的RAID系统但是Hadoop的到来打破了所有这些规则。Hadoop最佳运行于分布式环境并且结合本地服务器。这种存储模式不符合企业可靠性,可用性和可服务性的概念。事实上,大多数情况下,可认为该体系结构的分布式非共享特质并不符合企业特征。

大数据带来的大问题:

由于很多企业都开始涉足大数据平台,因此,按照平台厂商所建议的技术架构搭建专门针对大数据项目的平台环境是合理的做法。因此,在Hadoop环境下,调用了很多分布式节点,每一个节点都具有本地存储,而所有这些都位于一个公共的LAN中。这种布局的好处在于:它将Hadoop的sandbox与生产环境隔离开来。

但是,这种设计在某些关键领域无疑谈不上最佳:数据变得重复提取,转换和加载进程导致大量数据迁移这可能带来一些存储管理者不想看到的后果:记录,文件或对象将变得非常庞大,传统存储系统没有充足的吞吐量来及时交付数据,没有足够的带宽来处理业务,也没有足够的容量来存放大量数据。这就会导致存储的铺开蔓延——数十上百个存储仓,数十上百个管理点,往往伴随着空间,电力的浪费。数据存储系统可能到达性能瓶颈无法按时完成操作;传统存储不具备处理I/O请求的能力。这往往导致用户在磁盘上存放更少的数据并且对磁盘“short stroke(对磁盘进行格式化以使数据仅写入外部扇区的行为)”。实际上造成每GB占用的磁盘数量增长而更多磁盘需要应付I/O。也有可能因性能瓶颈造成部署大量存储而又无法充分利用其容量。

如前文所述,存储管理员花费大量时间将存储数据标准化。为了使标准化成为可能,衍生了诸如数据消重等专门化产品。但是,如果企业仅仅为了大数据而创造专门的环境,那么数据消重和数据容量优化带来的许多好处也就失去了意义。

此外,除了管理重复数据,如何管理从生产环境和数据仓储环境迁移至大数据环境中的数据也是极具挑战性的。根据大数据环境的设计,数据可能先复制然后存放于大数据环境中,或者在很多情况下,每一次大数据处理都需要将数据输入一次。这种输入被称为ETL(extract, transform, load)。数据从源设备中提炼(例如,从数据仓储),之后被转化(成为与大数据环境兼容的形式),并且加载到目标环境中。ETL进程会对存储网络构成相当大的压力。
最后,鉴于大数据基础架构不同于企业其他结构,传统数据管理应用可能无法管理,优化以及维护大数据架构。

存储理想状态并非不可实现:理想情况下,数据从OLTP,OLAP到大数据所有平台都应当经过标准化。这一概念通常被称为“事实来源的单一性”。设计针对性能,容量利用率,可用性和可管理性做了优化。要达到这一存储理想状态,存储管理者需要直面大数据分析进入数据中心的必然性。存储管理员应当尝试铺设引入新的设计架构。

实现这一目标的最佳方式就是提出作为访问数据新方式的协议,例如Hadoop分布式文件系统(HDFS)。Hadoop对于海量数据的处理包括两部分:MapReduce和HDFS。简单来说,MapReduce负责计算任务管理部分,而HDFS自动管理数据位于计算集群的存放位置。当一个计算任务被发起,MapReduce将它划分成能够并行运行的子任务,它要求HDFS查看每一个子任务所需数据位于何处,之后将计算任务发送到数据存放处所在的计算节点。本质上,是将计算任务发送给数据。子任务的结果发回给MapReduce master,由它来收集并发布最终结果。

与传统架构相比,这种差异可以用一个简单的比喻来概括:假设一家杂货店里有20个人,要经由同一个收银台来结算。如果每个人购买价值200美元的杂货,结算花费2分钟,那么40分钟内杂货店可收入4000美元。Hadoop版本的场景是:由十个低成本的兼职高中生组成十条收银线,每个人要多花费50%的结算时间(3分钟),一共花费6分钟完成20个人的结算但还是可以收入4000美元。

这种方式并不是面向企业的,而是面向大数据的。目前,只有少量存储系统能够提供HDFS作为接口(最为显著的可能是EMC Isilon存储阵列)。另一备选项则是选择一种大型数据分布(如Hadoop)以支持传统企业存储协议,如NFS。

最后,存储管理员需要将当前的存储系统和存储架构发展成为对象可寻址的存储架构(即基于对象的存储)。很多存储管理者尚未意识到的一点是,象Hadoop这样的解决方案并不是单一的软件,而是一个框架结构。框架中的存储相关部分就是HDFS。作为一种文件系统,HDFS提供了一层数据管理层。事实上,HDFS能够利用其特质来创建一种完全对象可寻址的环境。越来越多的独立软件厂商为HDFS提供支持,以使传统网络存储能够与HDFS相集成。未来,企业可能会放弃某些他们所熟悉的可移植文件系统,取而代之的是基于HDFS的存储设备。

例如,EMC Isilon存储系统,是一种横向扩展式(scale-out)存储架构。横向扩展式存储架构能够以充足的带宽来处理大容量文件。传统上,纵向扩展式(scale-up)隐含一种终极的限制,而横向扩展式对于容量与处理能力的扩展限制要小多了。Isilon能够使用既有的存储管理以及数据中心管理方案(例如VMware vCenter)。Isilon的横向扩展能力,以及对HDFS的支持使得性能得以通过I/O分布于多个控制器节点来实现优化。但最关键的是,它允许数据“待在原地”,而无需为了大数据分析处理而移动数据。

源于终端设备(移动设备,台式机或笔记本)的数据可能经由SMB接口被写入。这些数据经过收集,由NFS之上一些关键任务型应用加以采用,之后同样的数据(通过HDFS接口)成为Hadoop框架的一部分,而无需经过提取,转化或从一个存储系统加载到另一个。
这种方法对于企业非常具有吸引力:

数据能够根据企业策略来压缩或消重

数据能够如传统存储系统一样备份和管理

能够准确对数据源进行审核,从而提升可管理性

对象可寻址的存储概念与文件同步和共享环境的基本设立理念相同,如Box或Dropbox。但是,不同于终端设备使用数据,而是由关键任务型应用来对数据进行处理。数据的可移植性将数据应用几率以及企业价值衍生提升到一个新的高度。这种对象方式也减轻了LAN和SAN的压力,因为实际上排除了ETL。
一些厂商已经将专为Hadoop设计的应用进行组合,如Pivotal的Data Computing Appliance(DCA)。通过将服务器,网络,存储以及Hadoop紧密集成以优化部署和维护。Pivotal的DCA所有存储是系统节点本地所有的,但并没有native HDFS接口。EMC Isilon是具有native HDFS集成的存储系统。

关于大数据的大实话:

大数据和Hadoop是一个重新审视公司存储架构的推动力。存储管理员需要考虑如何改进现有的架构使之更加灵活,动态可变及多用户友好。

下一代高度虚拟化数据中心将会以数据为中心,而不是以计算为中心。存储管理员的职责是创建在应用之间最小化(甚至优化为无需)数据移动的架构。同样需要纳入考虑的是这一进化对于备份和灾难恢复策略的影响。

对于存储管理者来说最重要的可能在于,这是一场进化,而不是一次变革。也就是说,那些尽快发展的企业将会取得先发优势;如果这部分企业的数据用户能够利用这一优势,他们同样能够为他们的企业赢得竞争优势。

关于大数据,还有一件事是可以肯定的:你不去做,你的竞争对手就会去做。这种进化意味着将IT部门从一个成本中心改变为动态信息服务提供者。



THEEND