拼凑真相:认清纷繁世界的十大数据法则

[英] 蒂姆·哈福德
谨以本书献给全天下所有的老师, 尤其是我的老师。 怀念彼得·辛克莱先生。 前言 如何用数据说谎 问题的重点不是去伪,而是鉴真。 ——安伯托·艾柯 你听说过鹳鸟送子的故事吗?我告诉你这事千真万确。我可以用数据证明给你看。 我们先看看每个国家鹳鸟的大概数量,再比对每年的婴儿出生数量。在整个欧洲,这两个数字的关联性很强。统计的某年鹳鸟数量多,婴儿出生率也高;相反,某年鹳鸟数量少的话,婴儿出生率也低。 用数据论证十分符合学术期刊对论文的科学严谨要求,而且还有人真的发表过一篇题为《鹳鸟与生育率(p=0.008)》的论文,光是题目里那些精确到小数点后面好几位的零就已经足以让读者买账。 但也许聪明的你已经看出问题。德国、波兰和土耳其这样的欧洲大国,自然是家中婴儿多,房顶鹳鸟多。同理,阿尔巴尼亚和丹麦这样的小国,婴儿和鹳鸟的数量都少得多。虽然论文中的数据明确表明婴儿和鹳鸟呈正比关系,但事实上,这种正比关系并不能说明家有鹳鸟就会让这家人丁兴旺。 既然任何东西都可以用数据来证明,那数据也可以用来证明鹳鸟送子这样的故事是骗人的。 你如果读过《统计数据会说谎》这本书,就知道我说的是什么意思。1954年,一位名叫达莱尔·哈夫的美国自由撰稿人写了一本妙语连珠、针砭时弊的小册子。这本小册子出版后立即受到《纽约时报》的好评,并成为有史以来在数据统计方面最受欢迎的书,销量超过100万册。 这样的赞誉和喜爱并不为过。这本书简直就是数据统计领域里的一部神作,也让哈夫这样一位名不见经传的学者成为传奇人物。流行病学家,同时也是畅销书《科学弊病》的作者本·戈尔达克曾不无赞赏地说“愤青”哈夫“揭开了一块遮羞布”。美国作家查尔斯·惠兰更是将他的书《数字裸奔》形容为对哈夫“经典”的“致敬”。权威期刊《统计科学》在哈夫的书出版50年后组织了一次声势浩大的回顾展。 我以前对这本书也是顶礼膜拜。我十几岁时就开始阅读《统计…