大数据时代的数据整合

来自:水畔网行 0 0 2019-01-28

      大数据时代是新技术发展的必然,不管接受与否,我们现在已经进入了大数据时代。大数据技术给整合庞大无序的资源带来了便利。

       6300多年以前,古埃及人通过太阳升起和下落之间的时间规律制做了太阳历,预测太阳在某一日之内何时会升起,将单向前进的时间划分为365天为一个周期。2200多年以前,中国人通过观察候鸟迁徙和植物发芽制作了二十四节气,大致预测了一年之中的天气变化情况,让农业的播种和收割时间变得有规律可循。

       从广义上看,这些都是根据过去的数据进行的预测,但是与现在大数据的含义相比,这些预测显得过于广泛,而且规律更容易掌握。现在的大数据更多的是分析由人类行为所构成的现象,比如华尔街的股票走势、洛杉矶的犯罪发生情况、淘宝网上即将热销的商品,而在过去这些都是不可预测的。

       1966年,美国交通事故死亡人数高达5万人,达到了历史的峰值。美国国会要求联邦政府立即建立一套有效的交通事故记录系统,分析确定交通事故及其造成死亡的原因,以期望找到最能够避免事故的交通规划方式。这在当时看起来仅仅是一种前途未知的尝试,因为一起交通事故的数据可能是完全独立且无序的,一年的数据、一个地区的数据也看不出太多章法。然而随着跨年度、跨地区的数据越来越多,群体的行为特点就会在数据上呈现一种“秩序、关联、稳定”,更多规律就会浮出水面。现在,美国的汽车保有量是中国的3倍,而交通事故死亡人数仅仅是中国的一半。

       这种做法非常适合现在的大数据含义,而且也是人类最早在大数据方面获得的甜头。

       大数据并不仅仅是大量的数据,而是在看似无序和不关联的数据之间找到某种关联,发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会,也正是大数据最主要的特点。比如,你如果知道人们在晨洗之后多长时间会走出家门,再从供水系统的数据中找到用水的高峰时间,就能准确地预测到今天早晨哪个区域哪个时间路上的交通最拥挤,同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出堵车时点。

     “数”中自有黄金屋。无论是缔元信还是淘宝或者美国的亚马逊,现在对于大数据的开发都非常积极。大数据的开发远远不是为了做广告。可以说,大数据是人类刚刚获得的一个富矿,而我们目前只开发了它表面的一小层。

     (本文作于2013年10月)


喜欢 0
收藏 0
0条评论
查看更多评论