大数据时代,切莫忽略冷数据存储

谢涛
在进行冷数据存储时,也应充分考虑安全性。保证数据不丢失比较常见的策略是进行冗余备份,可一旦数据量过于庞大,问题就会接踵而至。包括成本成倍增加、需要维护的设备也相应增加等等。第二,由于大量数据被保存在一起,数据泄漏造成的代价会更大。
  我们正处于数据爆发的时代,大数据、移动互联网、人工智能、物联网等技术的发展,极大地促进了数字化进展。随着更多创新应用的出现,数据价值被广泛挖掘,数据重要性也得到了越来越多的认可。
 
  此前IDC发布的一份白皮书中预测,全球数据圈将从2018年的33ZB增至2025年的175ZB,实现5倍以上的增长。而所谓“数据圈”,即每年被创建、采集或是复制的数据集合。
 
  白皮书中还指出,娱乐数据和视频监控图像长期以来(并将继续)是全球数据圈的重要推动因素。物联网(IoT)设备信号、元数据(对分析、情境化和人工智能至关重要)和生产力数据,在当今日益数字化的世界中增长速度更快。
 
 
  不应被随意抛弃的冷数据,存储是难题
 
  在另外一份统计中,IDC指出在这些海量数据中,只有10%~15%的数据是经常被访问的“热数据”,绝大部分数据在产生之后使用频率就会大幅降低,甚至完全不再被访问,成为“冷数据”。
 
  虽然访问率极低,但人工智能技术的发展赋予了这些数据新的生命力,随着其隐藏价值不断被挖掘,并且大量创造商业价值,数据已成为企业的核心资产。因此,数据是无论如何都不能被轻易丢弃的,无论它们是冷是热。
 
  但由于冷数据量过于庞大,往往会带来许多存储方面的挑战。
 
  最直接摆在企业IT部门面前的,就是成本问题。面对井喷式增长的数据,如果只是简单地通过增加存储节点来提高容量,势必也将带来成本的线性增加,这对很多企业来说是难以接受的。此外,设备占地空间和供电也将带来更高的成本。
 
  此外,冷数据的维护与迁移也成为了一大难题。虽然是冷数据,但并不代表完全不必关注。IT部门通常需要定期对数据进行检查,确保数据的完整性。而且由于存储设备存在使用寿命,因此也需要对设备本身进行检查,及时排除硬件故障。在存储设备过于老化,生命周期结束之后,也需要对冷数据进行迁移,工作量是非常大的。
 
  最后,在进行冷数据存储时,也应充分考虑安全性。保证数据不丢失比较常见的策略是进行冗余备份,可一旦数据量过于庞大,问题就会接踵而至。包括成本成倍增加、需要维护的设备也相应增加等等。第二,由于大量数据被保存在一起,数据泄漏造成的代价会更大。
 
  值得一提的是,对于人工智能应用而言,对于冷数据存储也提出了新的要求。如快速访问、查找数据,这样才能确保数据科学家团队的工作效率。
 
 
  应对冷数据存储挑战的常见策略
 
  ·数据分层。根据业务实际需求,从数据访问频率以及数据使用价值等因素进行考虑,制定数据“温度表”,并以保证业务运行为前提,制定合理的自动分层策略,对数据的生命周期进行分析,在数据降温之后,自动将其转移到冷存储层。
 
  ·数据缩减。通过数据重删、压缩等手段,减少存储系统中使用的存储容量,提升存储空间的利用率。在大部分存储设备厂商的产品中,都提供了数据重删功能。这种办法不但让出了更多的存储空间,也能有效减少带宽占用,更便于传输,备份更加轻松。
 
  ·数据管理。通过智能化、自动化的存储管理系统,能够有效减轻运维人员的工作负担,如数据检查、数据分类、数据迁移、故障预警及排查等等,借助智能化的管理平台,可以实现高效运维。在部分管理系统中,也提供了机房节能策略,通过让设备适时休眠,帮助管理人员优化能耗。
 
  ·存储介质。目前冷数据存储介质还是以机械硬盘为主,希捷、西数、东芝等硬盘厂商也相继推出了更高容量密度的产品,成为冷数据存储的不错选择,更高密度的硬盘也在研发中。另外,在海量数据时代,磁带存储也颇有“重生”的意思,它的购买、使用成本更低。
 
  ·云存储。云计算越来越被接受,采用云存储能够以更灵活、弹性的方式获得足够的存储空间,同时按需付费的方式对企业来说也是预算友好的。
 
  最后
 
  业务的发展,创新应用的出现,会带来更加复杂的IT需求,使IT环境也会愈发多元复杂。这同样也将对冷数据存储不断提出新的需求,站在IT部门的角度上来说,为公司业务服务是终极目标,因此在考虑冷数据存储问题时,有时也需要结合业务情况灵活变通。
THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论