大数据时代的历史研究
舒健
拥抱“大数据”对历史研究的挑战 (代序)
一
梁启超先生在谈到史料对于史学发展的重要性时,把史料喻为“史之组织细胞”,认为“史料不具或不确,则无复史之可言”。傅斯年先生也强调,若要不断地使史学发展、层累,就必须不断地收集资料、挖掘资料。近代以来,研究者一直孜孜不倦地扩充史料来源,扩大研究范围,“上穷碧落下黄泉,动手动脚找材料”即体现了对获取研究史料的重视。随着科技的进步,尤其大数据时代的来临,史料的获取、存储、交流、再生产等诸多环节发生深刻变化,一个突出的表现就是数据库的蓬勃发展。英国著名学者魏根深(Endymion Wilkinson)在其著作《中国历史研究手册》(以下简称《手册》)的弁言中介绍了《手册》的四个重要目标,其中之一就是“突出利用电子资源对中国历史资料进行传播、归类和分析,这些资料上起商代甲骨文下到最近的中外学术研究”,还提到《手册》选择了225个数据库(此外还有数以百计的原始资料及参考著作的电子版),并强调“中国历史和考古研究领域在过去的十年中飞速变化,数据化亦改变了人们研究的方法,本书试图跟上这些新的发展”。
就国内而言,2010年以来,仅国家社科基金支持的、以数据库建设为核心的文史研究项目就不下70项,这两年来增长尤甚。资料的数字化改变了历史研究的资料来源,数字资源的采集、加工和处理对研究成果的取得作用日益显著,如何理解历史学在大数据时代下的发展就成了一个重要的课题。
首先,我们来回顾一下国内史学类数据库的发展历程。尽管数据库技术滥觞于20世纪60年代末,但是直到80年代,国内的人文学科才逐渐开展数据库的建设工作。就史学类数据库的建设来看,迄今大体可以分为三个阶段:
第一阶段主要为数字化制作、整理阶段,重点在于资料的输入与整理,制作成电子光盘。如在1985年,台湾“中研院”历史语言研究所便启动了“汉籍电子文献资料库”的建设工作,内容包括“二十五史”“十…