全国各个行业,大数据的采集和导入

今日头条
九十九笔
大数据平台,一般包括以下几个过程,数据采集,数据存储,数据管理,数据处理,数据展现(可视化,报表和监控)数据是分散在不同的系统中的,在让数据产生价值之前,必须对数据进行采集,清洗,处理,大数据的数量和...

大数据平台,一般包括以下几个过程,数据采集,数据存储,数据管理,数据处理,数据展现(可视化,报表和监控)数据是分散在不同的系统中的,在让数据产生价值之前,必须对数据进行采集,清洗,处理,大数据的数量和维度越来越多,我们必须采用大数据技术获得所需信息,计算机网络和信息设备的快速发展,产生的海量数据存在于各类服务器,媒介,机构,需要采取不同办法去寻找,加工数据才可以获得不同的办法去寻找,技工数据才可以获得所需信息,数据采集是所有数据系统必不可少的,随着大数据,越来越被重视,数据采集的挑战也变得尤为突出,这其中包括:数据源多种多样,数据量大,变化快。

全国各个行业,大数据的采集和导入

如何保证数据采集的可靠性,高性能

如何避免重复数据

如何保证数据的质量

10年前,网站日志是给开发人员和网站管理人员解决网站的问题,时至今日,网站日志数据可能包含了大量的业务和客户相关的很有价值信息,成为大数据分析的源数据。大数据采集首先是从网站日志收集开始的,之后进入了广阔的领域,本章以日志采集作为实例讲解大数据采集,正如我们所阐述的,将数据存储到HDFS并不是难事,只需要使用一条:hadoop fs“命令即可,但是,这些网站一直在产生大量的日志(一般为流式数据)”,那么,使用上述命令批量加载到HDFS中的频率是多少?每小时?每隔10分钟?虽然批量处理模式能够满足一部分用户的需求,但是很多用户需要我们使用类似流水线的模式来实时采集,(这样就保证了采集和后续处理之间的延迟非常小)后一个模式,就出现了messagebroker,即:以一个实施的模式从各个数据源采集数据到大数据系统上,为后续的近实时的在线分析系统和离线分析系统服务,对于这个模式,主要使用Flume和Kafka等工具,基于这些工具,一些企业实现了大数据采集平台,完成了下面的目标:

高性能:处理大数据的基本要求,如每秒处理几十万条数据

海量式:支持TB级甚至是PB级的数据规模

实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别

分布式:支持大数据的基本架构,能够平滑扩展

易用性:能够快速进行开发和部署

可靠性:能可靠的处理数据

数据采集是各种不同数据源的数据进入大数据系统的第一步,这个步骤的性能将会直接决定在一个给定的时间段内大数据系统能够处理的数据量的能力。数据采集过程中的一些常见步骤是:解析步骤去重,数据转换,并将其存储到某种持久层,涉及数据采集过程的逻辑。

源——-》数据解析——–》数据验证———–》数据清洗Cleaning数据去重De-duping—-》数据转换———–》持久层采集到的大数据保存到一个持久层中,如:HDFS,HBase等系统上。下面是一些性能方面的常用技巧:

来自不同数据源的传输应该异步的,可以使用文件来传输,或者使用消息中间件实现。由于数据采集过程的吞吐量可以大大高于大数据系统的处理能力,异步数据传输同样可以在大数据系统和不同的数据源之间进行解耦。大数据基础架构设计使得其很容易进行动态动态伸缩,数据采集的峰值流量对于大数据系统来说必须是安全的。

如果数据是直接从外部数据库中抽取的,确保拉取数据是使用批量的方式

如果数据是从文件解析,请务必使用合适的解析器。例如:如果从一个XML文件中读取,则有不同的解析器像JDOM,SAX,DOM等,类似的,对于CSV,JSON和其他格式的文件,也有相应的解析器和API可供选择

优先使用成熟的验证工具,大多数解析/验证工作流程通常运行在服务器环境中,大部分的场景基本上都有现成的标准校验工具。这些标准的现成的工具一般来说要比你自己开发的工具性能要好得多。比如:如果数据是XML格式的。优先使用XML用于验证。尽量提前过滤掉无效数据,以便后续的处理流程不用再无效数据上浪费过多的计算能力。处理无效数据的一个通用做法是将他们存放在一个专门的地方,这部分的数据存储占用额外的的开销。

如果来自数据源的数据需要清洗,例如去掉一些不需要的信息,尽量保持所有数据源的抽取程序版本一致,确保一次处理的是一个大批量的数据,而不是一条记录一条记录地来处理,一般来说数据清洗需要进行数据关联。数据清洗中需要进行数据关联一次,并且一次处理一个大批量数据就能够大幅度提高数据处理效率。

来自多个元的数据可以视不同的格式,优势,需要进行数据转换,世界收到的数据从多种格式转化成一种或一组标准格式。

一旦所有的数据采集完成后,转换后的数据通常存储在某些持久层,以便以后分析处理,有不同的持久系统,如:NOSQL数据库,分布式文件系统等,我们要特别指出的是,数据清洗是很重要的一步,许多的数据分析最后失败,原因就是要分析的数据存在最后失败,原因就是要分析的数据存在严重的质量问题,或者数据中某些因素使分析产生偏见,或使得数据科学家得出根本不存在的规律,虽然数据清晰很琐碎,但是只有事先做好了这个清洗工作,许多初级的数据科学家往往急于求成,对数据草草处理进行下一步分析工作,等到运行算法时,才发现数据有严重的质量问题,无法得出合理的的分析结果。总之,一定要防止“垃圾进垃圾出”

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论