数据中心级持久内存如何破解PB级数据分析难题

云技术
目前,数据洪流已经到来,随着5G的到来,数据洪流还要加剧。数据是企业的血液,是企业生产的根本,数据如何存储、分析,产生更大的价值,是每家企业都要面临的挑战,企业需要从软件和硬件方面同时着手。

5G商用,物联网加速落地,人工智能快速发展,必将产生大量的数据,形成数据洪流,给数据的管理分析带来巨大挑战!

一、全球超过一半数据创建于过去两年,只有2%的数据经过了分析

根据IDC2018年11月公布的数据,全球超过一半数据产生于过去两年。2018年,仅中国数据量就达到 7.6 ZB。2025年将达到 48.6 ZB,年均增长30%。其中只有2%的数据经过了分析,数据只有经过分析才有价值,从统计结果看显然,数据分析还远远不够普及。

数据洪流和数据分析发展曲线

数据分析非常复杂,从大的方向来划分,可以分为软件解决方案和硬件解决方案,下面我们分别了解下两种解决方案。

二、数据分析软件解决方案生态及典型工具

mattturck.com网站每年会发布数据及AI生态图谱,下图是最新的2019年图谱,可以看到和数据相关的企业非常多,涉及的领域也非常复杂。

从图谱来看,大的模块如下:

基础架构:Hadpoop生态,关系数据库、内存数据库、NoSQL数据库、图数据库、存储等
数据分析工具:数据分析平台、数据科学平台、BI、可视化、日志分析、社交分析等
企业应用数据分析:销售、市场、客服、人力资源、法律、财务、安全
APP应用数据分析:广告、教育、健康、生命科学、交通等
云厂商数据分析(往往提供从基础架构到解决方案):AWS、微软、谷歌、IBM、VMware、甲骨文

下面我们在来看看在一些不同领域,典型的数据分析工具:

1. Excel

Excel可以说是随手可得的数据分析工具,对于数据量不大的情况,使用Excel可以轻松分析,Excel提供的函数可以满足更复杂的分析要求,提供的VBA工具还可以编程,但是对于数据量特别大的分析,Excel就难以胜任了。

2. Hadoop

Hadoop是数据分析重量级的解决方案,如今已经形成生态,有不同的商业发行版和上下游企业。Hadoop是一个由Apache基金会开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了分布式文件系统(HDFS),Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

3. R语言

R语言常用于统计分析、绘图的语言和操作环境,并且是开源的。R语音是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。另外,在数据处理领域,Python也是常有的语言。

4. Tableau

Tableau是比较成功的数据分析工具,尤其是BI方面,今年6月份,Salesforce.com斥资153亿美元收购Tableau。Tableau的数据分析和展现做的比较好,很容易上手,兼容性也很好,同时支持Windows、Linux、MacOS等各种平台。。

5. Splunk

Splunk是最成功的商业日志管理分析工具,目前市值接近200亿美金。Splunk 收集、分析基础设施、安全系统和业务应用的数据,并将数据分析结果可视化。支持多平台,可以满足复杂的日志分析需求。

6.Elasticsearch

Shay Banon在2004年创造了Elasticsearch的前身,称为Compass。Shay Banon在2010年2月发布了Elasticsearch的第一个版本。Elasticsearch是开源的实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能。ElasticSearch提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。

软件方案一般门槛高,有学习成本,在数据量比较大的时候,要快速提升数据分析能力,使用硬件方案是好的选择。

笔者在英特尔网站发现了一份通过硬件提升数据分析能力的白皮书,基于英特尔®“傲腾™”数据中心级持久内存可以显著提升数据分析能力,笔者仔细阅读了白皮书,将其中重要的部分摘抄出来,和大家分享下。

三、数据分析加速利器-英特尔®“傲腾™”数据中心级持久内存

1. 英特尔®“傲腾™”数据中心级持久内存原理

为了让数据分析的速度提升,英特尔®推出的新一代的至强可扩展平台,是一套真正体现“以数据为中心”宗旨的产品技术组合,不仅仅配备第二代英特尔®至强®可扩展处理器,并且与之搭配的英特尔®“傲腾™”数据中心级持久内存更为抢眼,随之而来的是数据处理和分析平台在内存和存储结构上的真正革新,也是破解数据分析难题症结的一剂良方。

英特尔®推出的新一代的至强可扩展平台

“傲腾™”数据中心级持久内存与普通服务器的DRAM的不同之处,在于“傲腾™”能以更经济的成本来扩展出更高的容量,具备数据持久性,且与DRAM内存有相近的数据读写和延时性能。

英特尔®“傲腾™”数据中心级持久内存和英特尔“傲腾™”固态盘存储结构

如图所示,添加了英特尔®“傲腾™”数据中心级持久内存和英特尔“傲腾™”固态盘后的全新内存和存储结构,为数据存存储到技术,从冷到热提供了更为精细的分层结果,更多的缓存,让数据的流动、处理、分析更为流畅。

英特尔®“傲腾™”数据中心级持久内存特点

英特尔®“傲腾™”数据中心级持久内存具有低成本大容量特点,单一模块可以提供128GB/256GB/512GB三种选择,与传统的DDR4 DRAM内存一同安装在基于至强可扩展处理器平台上时,可以更经济的在八路系统上实现高达24TB的容量(每路最高3TB)。

2. 英特尔®“傲腾™”数据中心级持久内存工作模式

英特尔®“傲腾™”数据中心级持久内存,即可以做内存,也可以做存储,有三种玩法。

工作模式一:内存模式

使用“傲腾™”技术,处理器控制器将DRAM视为缓存,将“傲腾™”数据中心级内存用做可寻址的主内存,让数据以高性价比一直运行在内存中成为可能。由于“傲腾™”的高性价比,可以一次性将数据加载到内存中处理,大大提升了数据处理效果。

云计算的关键技术,虚拟化和容器可以以最快的速度直接从这种模式中收益,可以直接提升虚拟机或者容器性能,进一步提升单机的虚拟化密度。

工作模式二:App Direct模式

操作系统将DRAM和“傲腾™”数据中心级内存视为两个独立的内存池,“傲腾™”数据中心级内存可以像内存一样寻址,像存储设备一样具备数据持久性。在机器重启期间也能保留之前加载的数据,从而增加系统的业务弹性,缩短重启时间,提升业务恢复的速度。

工作模式三:双重模式

可以通过与配置的方式,部分处于内存模式,企业部分处于App Direct模式,用来满足用户即对内存模式有需求,又有工作负载需要运行在App Direct模式。

英特尔®“傲腾™”数据中心级持久内存三种工作模式

3. 案例:良好的效果

百度Feed流服务

百度Feed流服务的核心模块Feed-Cube从仅配置DRAM内存的模式,迁移至同时使用DRAM与英特尔®“傲腾™”数据中心级持久内存混合配置模式,再到全面部署在英特尔®“傲腾™”数据中心级持久内存上的模式,卓有成效的降低了总体拥有成本(TCO)。

百度Feed-Cube在不同内存配置模式下测试效果对比

SAP HANA

SAP测试了HANA在3TB DRAM内存平台,以及在3TB DRAM内存+6TB英特尔®“傲腾™”数据中心级持久内存平台上的表现,让系统重新启动从20分钟缩短到90秒,实现了13倍的提示,并使每TB数据库容量成本节约39%。

SAP HANA测试效果

英特尔®“傲腾™”数据中心级持久内存基于英特尔®至强®可扩展平台,英特尔®至强®可扩展平台有许多革命性的改进,我们再来简单介绍下英特尔®至强®可扩展平台。

四、英特尔®至强®可扩展平台介绍

到2020年,全球2000强跨国公司中有半数公司的成功将取决于打造数字化增强型产品、服务和体验的能力,背后的推动力便是技术的进步和由此带来的新模式。这使得全球对灵活计算、网络和存储的需求激增,数据中心需要演进,英特尔®至强®可扩展的数据中心平台实现了敏捷性和可扩展性的飞跃,并且能够提高效率并降低TCO。

英特尔®至强®可扩展平台内置人工智能加速并已针对工作负载进行优化,提供了多云与智能边缘之间无障碍性能切换的基础,平台搭载第二代英特尔®至强®可扩展处理器,将性能的一致性、普遍性和突破性提升到了新的高度。

英特尔®至强®可扩展平台为数据分析、人工智能、混合云、网络专线、HPC提供专用解决方案。

为5G就绪云优化网络

英特尔®至强®可扩展平台提供的架构能够轻松扩展和改造,第二代英特尔®至强®可扩展处理器“N”SKU,专门用于网络/NFV,开源数据平面开发套件(DPDK)在英特尔架构上实现了优化的通信操作。

总结:5G时代,数据分析能力才是王道

目前,数据洪流已经到来,随着5G的到来,数据洪流还要加剧。数据是企业的血液,是企业生产的根本,数据如何存储、分析,产生更大的价值,是每家企业都要面临的挑战,企业需要从软件和硬件方面同时着手。英特尔®至强®可扩展平台是应对数据洪流的利器,英特尔®“傲腾™”数据中心级持久内存是加速数据分析的利器,可以让企业在数据处理方面走的更快更稳。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论