统计数据会说谎
[美] 达莱尔·哈夫
谨将此书献给我的妻子 世界上有三种谎言:谎言、弥天大谎和统计数据。
——迪斯雷利(Disraeli)
对讲求效率的公民而言,总有一天统计思维会和读写能力一样不可或缺。
——赫伯特·乔治·韦尔斯(H. G. Wells)
让我们陷入困境的并非我们不知道的东西,而是我们知道但并不正确的东西。
——阿蒂默斯·沃德(Artemus Ward)
整数总是有问题的。
——塞缪尔·约翰逊(Samuel Johnson)
对于统计这门学科我想写的东西很多,但是我深知如果非要把它说得准确而透彻,我的语言水平还远远不够。
——弗朗西斯·高尔顿爵士(Sir Francis Galton) 引言
图片
我的岳父从艾奥瓦州搬到加利福尼亚州没几天,就对我说:“这个地方的犯罪事件太多了!”他所读的报纸的确报道了许多犯罪事件。这份报纸从不放过报道当地的任何一起犯罪事件,而且以注重报道谋杀案闻名,其详尽程度超过了艾奥瓦州的任何一家大型报社。
我岳父的这一结论属于非正式统计。这个统计基于一个明显带有偏差的样本。与其他许多较为规范的统计一样,这个统计也存在虚假的成分。因为这个统计认为报纸上报道犯罪事件版面的大小是衡量犯罪率高低的标准。
几年前,十几位调查人员分别发表了一份关于抗组胺剂药物的报告。每份报告都表明,服用该药物后感冒会明显好转。紧接着就是各种各样的渲染,至少广告商是这么干的,于是这种药物被大量生产。造成这一结果的原因是人们一直对药物有着大量需求,也从未越过统计学去了解自己早已知道的事实。正如亨利·G·费尔森(Henry G. Felsen,他是一位幽默作家,但绝不是医学专家)很久以前所说的,适当的治疗可使感冒在七天之内痊愈,但如果任其自然发展,感冒则会持续一个星期。
那么,你读到和听到的事情大多也是如此。那些平均数、各种关系、趋势图以及图表并不总是一致。你所看见的未必是真实情况,事实上这些数…