大数据技术学习:大数据庞大的数据流量怎么采集才最好

搜狐科技
科多大数据
大数据这样庞大的数据流量到底要怎样采集才能又快又方便呢?这可是学习大数据所必须了解的一点。数据采集是指从真实世界对象中获得原始数据的过程。不准确的数据采集将影响后续的数据处理并最终得到无效的结果。数据...

大数据这样庞大的数据流量到底要怎样采集才能又快又方便呢?这可是学习大数据所必须了解的一点。数据采集是指从真实世界对象中获得原始数据的过程。不准确的数据采集将影响后续的数据处理并最终得到无效的结果。数据采集方法的选择不但要依赖于数据源的物理性质,还要考虑数据分析的目标。科多大数据给大家介绍3种常用的数据采集方法:传感器、日志文件和web爬虫。

1、传感器

传感器常用于测量物理环境变量并将其转化为可读的数字信号以待处理。传感器包括声音、振动、化学、电流、天气、压力、温度和距离等类型。通过有线或无线网络,信息被传送到数据采集点。

有线传感器网络通过网线收集传感器的信息,这种方式适用于传感器易于部署和管理的场景。例如视频监控系统通常使用非屏蔽双绞线连接摄像头,摄像头部署在公众场合监控人们的行为,如偷盗和其他犯罪行为。而这仅仅是光学监控领域一个很小的应用示例,在更广义的光学信息获取和处理系统中(例如对地观测、深空探测等),情况往往更复杂。

另一方面,无线传感器网络利用无线网络作为信息传输的载体,适合于没有能量或通信的基础设施的场合。近年来,无线传感器网络得到了广泛的研究,并应用在多种场合,如环境、水质监控、土木工程、野生动物监控等。WSNs通常由大量微小传感器节点构成,微小传感器由电池供电,被部署在应用制定的地点收集感知数据。当节点部署完成后,基站将发布网络配置/管理或收集命令,来自不同节点的感知数据将被汇集并转发到基站以待处理。

基于传感器的数据采集系统被认为是一个信息物理系统(cyber-physicalsystem)。实际上,在科学实验中许多用于收集实验数据的专用仪器(如磁分光计、射电望远镜等),可以看作特殊的传感器。从这个角度,实验数据采集系统同样是一个信息物理系统。

2、日志文件

日志是广泛使用的数据采集方法之一,由数据源系统产生,以特殊的文件格式记录系统的活动。几乎所有在数字设备上运行的应用使用日志文件非常有用,例如web服务器通常要在访问日志文件中记录网站用户的点击、键盘输入、访问行为以及其他属性。有三种类型的web服务器日志文件格式用于捕获用户在网站上的活动:通用日志文件格式(NCSA)、扩展日志文件格式(W3C)和IIS日志文件格式(Microsoft)。所有日志文件格式都是ASCII文本格式。数据库也可以用来替代文本文件存储日志信息,以提高海量日志仓库的查询效率。其他基于日志文件的数据采集包括金融应用的股票记帐和网络监控的性能测量及流量管理。

和物理传感器相比,日志文件可以看作是“软件传感器”,许多用户实现的数据采集软件属于这类。

3、Web爬虫

爬虫是指为搜索引擎下载并存储网页的程序。爬虫顺序地访问初始队列中的一组URLs,并为所有URLs分配一个优先级。爬虫从队列中获得具有一定优先级的URL,下载该网页,随后解析网页中包含的所有URLs并添加这些新的URLs到队列中。这个过程一直重复,直到爬虫程序停止为止。Web爬虫是网站应用如搜索引擎和web缓存的主要数据采集方式。数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定。选择策略决定哪个网页将被访问;重访策略决定何时检查网页是否更新;礼貌策略防止过度访问网站;并行策略则用于协调分布的爬虫程序。传统的web爬虫应用已较为成熟,提出了不少有效的方案。随着更丰富更先进的web应用的出现,一些新的爬虫机制已被用于爬取富互联网应用的数据。

除了上述方法,还有许多和领域相关的数据采集方法和系统。例如,政府部门收集并存储指纹和签名等人体生物信息,用于身份认证或追踪罪犯。根据数据采集方式的不同,数据采集方法又可以大致分为以下两类:

●基于拉(pull-based)的方法,数据由集中式或分布式的代理主动收集。

●基于推(push-based)的方法,数据由源或第三方推向数据汇聚点。

日志文件是最简单的数据采集方法,但是只能收集相对一小部分结构化数据;web爬虫是最灵活的数据采集方法,可以获得巨量的结构复杂的数据。

大数据培训中提到的大数据采集方法可不仅仅只是第三种编写爬虫哦,前面两种也需要编写程序来提高数据采集和整理的速度。更多大数据学习资讯关注科多大数据就能获得。

THEEND