近些年来,大数据这个看上去实在是有点土的词汇,令人瞠目的在2011年之后成为冉冉升起的传媒焦点,并汇同社交网络、自媒体、工业4.0、云计算、风险投资等等相关或者不相关的概念,共同形成了横扫大街小巷的一股信息泥石流。最终在几乎每一个人的脑海里固化为一个概念:我们已经进入大数据时代了!
但是,且慢,人类迄今已经有了数千年文明史,那么在大数据这个概念出现之前,人类使用数据的历史又是怎样的呢?本文就来聊聊这个有趣的话题。
1、为什么大数据概念出现的如此之晚
提到数据,可能大家脑海里默认反映出的是0-9这样一些数字,比如说今天大盘又跌了2%,昨天买的大白菜每公斤又涨了1毛钱之类的。但实际这种理解是将数字和数据的概念混淆了,数据的范围可远远不止于数字范畴。
准确地讲,数据是指对客观事物的性质、状态以及相互关系等进行记载的符号组合,除数字外,文字、图像、声音、视频等实际上都是数据,只不过在历史上由于手段限制,对除数字外的数据很难做进一步的分析利用罢了。而数据实际上是人类文明传承的重要媒介。通过对各种人类活动的数据化(比如利用语言和文字加以记录)和不断累积,文明得以继承和发展。生产生活活动得以不断的精细化。
那么,为什么在人类文明史上却长期没有所谓的“大数据”什么事呢?让我们把数据分析还没有得到大规模应用之前的漫长年代笼统地称为大数据的史前时代。这个时期有以下的基本特征:
除非特意人工记录,否则数据信息不会产生,也不会保留。这一时期并不存在对数据进行自动观察和记录的仪器,因此除非有人站在十字路口数,否则就无法得知当日通过该路口的人数有多少,而这个数据如果不被记录下来,也很快就会被遗忘。显然,数据在这一时期是异常匮乏的。
严重缺乏对数据进行加工利用的技术和工具。数据分析高度依赖统计学,而统计学是数学发展到一定阶段才会产生的分支,而在阿拉伯数字尚未普及的年代,罗马和希腊的数字用于计算加减都非常困难,计算乘除更是难如登天。就算高斯提前降生在这个时代,大概率其结局也只能是无甚建树。中国情况虽然要好一些,但相应的数学知识也不可能普及到每一个平民,就更不要说讨论统计学有无可能出现了。
严重缺乏数据信息交流的工具和手段。在文字出现之前,数据信息的交流只能靠口耳相传(例如祭司师徒之间的知识传承,或者游吟诗人的世代传唱),而印刷术出现之前,则只能靠手抄文字加以流传。直到印刷术出现之后,信息才有了大规模普及的和交流的基础,但这种速度和媒介尚远远不能满足知识本身的传播需求,更不要说加以二次分析利用了。
而以上客观条件的限制,使得有意识地去采集数据,并利用数据来达成某种分析目标也变得几乎不可能(有多余的钱先拿来happy一下不好么?搞什么数据采集呀!)。比如中国传统典籍中所称颂的日出而作,日落而息,男耕女织的生活,其本质就是完全靠天吃饭,略有盈余往往也不会想到拿到集市上去交换,农夫几乎不会去考虑田地种什么收益会更高一些,临水而居的人也很少会考虑自己是打渔还是撑船,甚或改行去弄几亩水浇地来种,一切似乎都是家传,自然而然。
但是,文明总是在不断进步的,即使是在大数据的史前时代,也确实存在着采集数据、分析数据的需求,这方面以作为社会管理者出现的教会、政府的需求最为强烈,特别是集中体现在人口普查的需求上:
古代中国在人口统计上做的非常出色,这里就不单独拎出来表扬了
据说古埃及就进行过人口普查,古罗马在拥有数十万人口的时候规定每5年普查一次。然而普查所需要的能力在当时远远超越了人类社会的上限,以至于随着国家人口越来越多而最终只能粗略计数。
1086年,英国国王威廉一世对全国进行人口普查,结果到他1087年去世时这项工作也还未完成。
实际上,直到19世纪为止(此时已进入小数据时代),即使这样不频繁的人口普查依然很困难。美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,当时则预计要花费13年的时间来汇总数据。
2、史前时代的阶段细分
史前时代的时间跨度很长,而在此期间,虽然非常缓慢,但对数据的分析利用方面也逐渐出现这一些变化,因此史前时代可以大致分为如下几个阶段:
2.1远古时代
远古时代指的是文字系统尚未出现之前的时期,信息的交流主要依靠口耳相传,比如部落祭司师徒传承时的口耳相传。虽然在后期逐步出现了结绳记事之类的简单记录方法,但总体而言,在这种状态下,数据的准确记录都无法得到保证,就更不用考虑数据分析利用的问题了。
2.2文字时代
文字是人类互相所交流的信息的客观记录方式,而不是一般所认为的仅仅是记录语言的符号。文字的产生在人类文明史上起着至关重要的作用,它的出现意味着前人得到的知识可以被准确无误地传承下去。
目前公认世界上出现最早的是距今5000~6000年两河流域的楔形文字,随后在世界各地的各个文明发展出了各自使用的古埃及象形文字、美洲玛雅文字、中国甲骨文、古印度印章文字、腓尼基字母、希腊字母、拉丁字母、斯拉夫字母等。文字的出现初步解决了数据信息的保存问题,也使得数据信息的交流变得可行和可靠。
但是,由于各个文字体系并不相同,跨文明间的交流仍然非常困难。例如对数字的记录和计算方式,中国古代采用的是十进位制的算筹记数法,这在历史上非常先进,也使得古代中国的数学取得了许多卓越成就。
筹算,历史上第一种有进位的10进制记数法
而同时期的其他先进文明在数学方面确实就没有那么先进了:
古罗马的数字系统没有位值制,只有七个基本符号,如要记稍大一点的数目就相当繁难;
古美洲玛雅人倒是懂得位值制,但用的是20进位,太不方便,所以近代被打败了;
古巴比伦人也知道位值制,但用的是60进位,太不方便*3,所以很早就消失了。
古巴比伦的学生们真可怜。。。
缺少统一且高效的数学语言,使得在文字时代对数据信息做有效挖掘仍然是非常困难的。
2.3阿拉伯数字时代
一般认为是公元3世纪,印度科学家巴格达发明了阿拉伯数字,并在大约公元9世纪传入阿拉伯地区,随后传入欧洲,并在大约13到14世纪传入中国。由于阿拉伯数字笔画简单,书写方便,加上使用十进位制便于运算,逐渐在各国流行起来,最终成为世界各国通用的数字。
数学语言,特别是计算进制的统一,终于使得各个文明之间能够对数据的分析利用做有效的交流。此时数据记录、存储、分析、交流的前提条件都已具备,数据的分析需求逐渐产生,小数据时代开始逐步向人类文明走来。