基于两个经典案例的分析两类“大数据”的区分

数据杂志
薛永红
虽然两类大数据有区别,但随着不断融合,它们之间的界限越来越模糊。SDS的数据虽然依赖于网络技术的发展,但其所使用的方法、模型很多都是来自于SSD的研究成果。正如汉弗莱斯所指出的,当小写的大数据向社会各领域渗透并迅速发展时,便产生了大写的大数据。

11.jpg

美国科学哲学家汉弗莱斯将大数据分为两类,一类是大写的大数据(BIG DATA),另一类是小写的大数据(big data)。小写的大数据指与数据科学相关的活动和方法,是拥有海量数据的组织机构所面临的技术问题;而当这些活动、方法尤其关于处理海量数据的技术向社会各领域渗透并迅速发展时,便产生了大写的大数据。这意味着我们平常所用的“大数据”所指的对象并不同一。大数据激进派的代表人物安德森、舍恩伯格等认为:数据可以客观地表征世界;只要数据量足够大,就不需要模型、问题及相关的理论,只要在数据的驱动下,数据可以自己发声;相关性是世界的本质;由于大数据可以完全避免人类的主观因素进入科学研究,大数据知识发现的模式更客观、更自由。大数据保守派的代表人物有弗洛里迪、克劳德、皮耶奇等,他们一方面承认大数据的独特性,另一方面对大数据是否能客观反映实在、大数据是否是理论自由的、大数据能否完全取代小数据、相关性能否代替因果性等都保持理性的怀疑态度,并且通过案例,对激进派的各种论调一一进行反驳。

案例一人类数感研究

人类对物体或事件的数量存在一种非言语的表征方式,区别于通过言语或数字符号对数量的精确表征,具有近似性和不精确性,心理学家称之为近似数量系统(ANS)。ANS是一种与生俱来的结构,无论人还是动物都有,它不仅体现在视觉任务中,也能体现在听觉任务中,是人类数感和形成数学能力的基础,在理论上服从韦伯定律。脑科学研究表明,脑区双侧的顶内沟处大致为ANS系统所处的位置。目前,脑科学和心理科学的相关研究成果被广泛应用到教育教学实践中。但长期以来,对ANS的研究缺乏对人的整个生命周期的研究,因为实践中很难对每一个样本进行终生的追踪研究。大数据技术出现之后,约翰霍布斯大学的心理学家哈尔伯达(J.Halberda)通过已有的ANS理论,构造出测试模型,然后向全球征求志愿者,在线完成测试任务。在短短的几个月时间里,便收集到了分布在全球不同地区的13000名年龄在11-85岁的测试者。通过对这些数据的分析,哈尔伯达不但完成了对人类数量感知力发展的整体描述、验证了前期对于不同年龄阶段ANS与数学水平之间的理论假设,填补了这一领域的研究空白,而且还发现了之前没有发现的一些“意外”规律。

案例二谷歌流感预测

季节性流感是人类社会长期面临的一个世界性的威胁和问题,据统计,全球每年约有25万-50万人死于季节性流感。因此,对季节性流感进行预测并提前防控具有重要意义。美国疾病控制和预防中心(CDC)、欧洲流感监测计划(EISS)所使用的流感预测系统,都是依据病毒学理论,使用临床监测数据,对流感进行预测,并向公众发布预测报告,但预测报告通常会滞后1-2周。随着互联网与大数据技术的发展,研究人员发现在某一地区,某些词的互联网搜索频率与流感样疾病(influenza-like illness,ILI)病例的就诊比率高度相关。2008年,谷歌建立了一种通过分析谷歌搜索查询来跟踪、预测流感的系统。在谷歌的预测模型中,自变量为同一地区与流感样疾病相关的检索词的检索频率。将模型的预测结果与CDC的结果相比较,发现对2008年各季度预测的结果与美国CDC的监测结果的相关系数达到0.97。而最为关键的是,由于可以快速处理搜索查询,谷歌的预测报告比CDC的提前1-2周。

分析SSD与SDS

以上两个大数据案例恰好代表了两个大数据流派对大数据的看法。当研究者基于案例一来分析时,必然会得出大数据研究离不开模型、以问题驱动、相关性不能代替因果性等,而对于影响人类“数感”的机制是什么仍旧悬而未决;如果以案例二为依据则可以得出,大数据不需要具体问题,

虽然两类大数据有区别,但随着不断融合,它们之间的界限越来越模糊。SDS的数据虽然依赖于网络技术的发展,但其所使用的方法、模型很多都是来自于SSD的研究成果。正如汉弗莱斯所指出的,当小写的大数据向社会各领域渗透并迅速发展时,便产生了大写的大数据。综上所述,由于大数据所指陈的对象并不同一,即客观上存在着两类既有区别又有联系的大数据,因此,在开展相关研究时,研究者首先要明确自己所研究的对象属于哪一类,如此才不至于陷入激进派与保守派无休止的论争漩涡。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论