牛津通识读本:大数据(中文版)

[美] 道恩·E.霍尔姆斯
序言 王崇骏 四方上下曰宇,往来古今曰宙! 从137亿年前宇宙大爆炸,到46亿年前地球诞生,再到38亿年前地球上开始有生命,直至约6000年前文字的出现开启了人类文明,这是一个多么漫长的过程!与其他物种大多通过遗传进化不同,人类在进化过程中发展和演化出了一种非遗传性继承:通过独一无二且日益发达的文化媒介(语言、文字以及有意识地利用外在物和工具的特质)将知识留给后代。这种文化传承使得人类可以快速进化,并最终成为这个星球的“统治者”。 在漫长的人类文明发展史中,从源自动物性的“数觉”到为了“征服”自然界,人类开始对“数”产生了需求,并且随着这种需求的逐步膨胀,一系列的工具、算法、设备被不断发明和创造,比如早期的计时工具、计数工具,以及诸如算筹、算盘等算术工具。随着计算理论的丰富,以及机械工艺的进步,人们开始思考如何用更为精巧的设备进行计算,如纳皮尔筹、机械尺、机械计算机等;而图灵机理论的发明、冯·诺伊曼体系结构的提出,以及1946年ENIAC的发明,则让数字计算时代就此来临。 在后ENIAC时代,计算机从最开始的军用走向了民用,其功能不断发展和丰富,从最开始的数值计算走向网络通信、计算感知,并逐渐应用于生活娱乐和企业管理。与此同时,也因为计算机在各个领域的渗透和深入应用,计算机从最原始的计算工具变为一个研究对象,伴随着各类计算理论的发展,计算机科学与技术、工程和应用也得到持续的发展和推进。在这个发展过程中,传统的“数”的内涵,也从最开始的“数值”不断拓展,数据开始以不同的类型、模态、视图样式出现,并服务于人们的需求,传统意义的“数值”则成为一种数据类型。 信息技术,尤其是互联网技术的迅猛发展,烟囱式软件开发模式、云计算在不同领域的不断渗透,以及人们日益多样化和碎片化的行为方式,或许还有其他更多的原因,让人们在数据层面不得不面对“大数据”这样的难题,即难以在期望的时间内利用常规…