您现在的位置是:网站首页>科普科普

《数据如何误导了我们》

铛铛铃2025-09-14科普1人已围观

简介

今天为你解读的书

《数据如何误导了我们》

副标题是“普通人的统计学思维启蒙书”。

在日常生活中,我们每天都在和各种数据打交道。我们会用智商衡量一个人的智力水平,用国内生产总值衡量经济状况。选餐厅吃饭时,我们会看点评网站的分数。各种生理数据还决定了一个人的健康水平和退休年龄。可以说,在现代社会,一个人的衣食住行、生老病死都和数据息息相关。每个人既是数据的制造者,也是数据的消费者。许多人相信数据是对现实世界的真实反映,但本书作者桑内·布劳对此持怀疑态度。

布劳是一位荷兰的计量经济学家和数据分析记者,他的工作就是和各种各样的数据打交道,因此他也知道,数据并没有那么客观真实。不同的人调查同一件事,可能得出不同的数据,对同一份数据的分析结果也因人而异。而数据的错误使用,可能会影响上千万人的生活。

布劳写这本书的目的,是为了唤起人们对数据使用的警惕。在数据无所不在的现代社会,我们需要学会正确使用数据,而不是让数据反客为主,来操控我们的生活。

下面我会通过两个部分,为你解读本书的主要内容。第一,在数据使用上会出现哪些问题;第二,大数据时代存在哪些风险。

先说第一个部分,在数据使用上会出现哪些问题。

作者把数据使用分成三个环节,分别是标准化、采集和分析,每个环节都可能出现问题。

先说标准化环节。在这个环节,我们要采集被衡量对象的相关数据。有些衡量对象很简单,要采集的数据也很明确,比如要衡量家庭经济状况,就要采集这个家庭的收入和支出。但在有些情况下,我们要衡量的对象会更抽象复杂,我们采集的数据未必能反映真实情况。

书里举了智商作为例子。人们普遍把智商看做智力水平的客观量化,一个人智商得分越高就越聪明,得分越低就越愚蠢。但事实并非如此。智力一般指人们认识和理解事物,并用经验和技能解决问题的能力,其中包括了大量难以被数据化的东西,比如一个人的思维创造性、他的沟通表达能力,以及他在出错后的反思和改进能力,这些都是我们解决问题所需要的能力。

那么智商又是怎么得出来的呢?目前,各种智商测试题主要内容包括词汇量测试、寻找不同事物之间的差异,以及各种数学逻辑推理题。概括地说,智商测试主要考察的是一个人的知识面以及抽象逻辑能力。所以智商测试只是涵盖了智力的一部分内容,一个人智商得分高,说明他的知识面广,抽象逻辑能力较强,但这未必代表他在解决实际问题中表现就一定更好。

事实上,智商测试在诞生之初,并不是为了衡量智力水平,而是为了帮助学生。最早发明智商测试的人,是法国心理学家阿尔弗雷德·比奈。1904年,法国教育部长要求比奈想一个方法,来找出哪些学生学习效果不佳,需要额外的特殊教育。于是比奈制作了一份测试题,题目里的问题难度逐渐加强,根据学生回答的题目数量,比奈就能找出那些学习落后的学生。这个方法很科学,因为在同样教育条件下的学生之间,是有可比性的。

但随着时代的发展,一些人开始把智商测试的用途扩大化,在教育水平和生活环境不同的人之间进行对比,并把智商看成智力水平的真实体现,这会带来一系列的不良后果。在第一次世界大战期间,哈佛大学的心理学家罗伯特·耶基斯在比奈的测试题基础上,设计了一份可供大规模使用的智商测试题,发放给全美国175万名新兵进行测试。耶基斯在对数据分析后得出的结论是,欧洲移民和黑人的平均智商要明显低于白人。耶基斯的这个结论造成了深远的历史影响,许多人因此认为,黑人天生在智力上就不如白人,进一步加深了种族歧视现象。一些政治家也以此为理由,在二战时期拒绝了数百万犹太难民的入境需求。智商测试的数据,还推动了美国绝育法案的合法化。1927年,为智力受损的女性强制实施绝育手术的行为被判定合法,美国最高法院大法官的理由是“痴呆的人传三代就够了”。直到1978年,这种不人道的做法才被宣布是非法的。

这些悲剧的起因,都是因为人们忽略了“智商测试不是对智力水平的真实反应”这一事实。

说完数据标准化的问题,下面我们来说数据使用的第二个环节——采集。

即便在标准化上没问题,在实际采集数据的过程中也可能出错,导致采集的数据无法反映真实情况。作者以美国生物学家阿尔弗雷德·金赛在1948年发布的《人类男性性行为报告》为例,介绍了数据采集环节的问题。

在那个年代,美国男性的形象还是以得体、有教养的绅士为主,但金赛的报告显示,50%的男性有过外遇,37%的男性有过同性恋经历,每12名男性中,就有一名和动物发生过性关系。而这些数据的来源,是金赛和同事对5300名美国男性的调查采访。这份报告的结论让美国男性觉得过于离谱,很多人都对这份报告提出了批评。为了应对民众的批评,为金赛研究支付费用的洛克菲勒基金会派出了三名统计学家,他们对金赛的数据采集方式做了深入的调查,指出了采集过程中存在的问题。这些问题可以总结为三点:

第一点问题是调查方式和问题设置不当。金赛的调查方式是当面向受访者提问,问题涵盖了和性有关的各个方面。而对于性这样敏感的话题,如何保证受访者说实话是很难的。有种观点认为,相比面对面的采访,人们在填写调查问卷时会更放松和诚实,但其实调查问卷也不靠谱。在2003年,有一个实验研究者要求200名学生填写一份关于性生活的问卷,其中一部分学生是连着测谎仪填写的,结果显示,连接测谎仪的学生回答的性伴侣人数相比其他学生高出70%。所以,在性行为的调查上,哪种方式采集的数据更可靠其实没有定论,可以确定的是,在面对面的采访中,必然有一些受访者是没说实话的。

除了调查方式,调查问题的设置也会影响受访者的回答。比如金赛会问你第一次自卫是什么时候,这样的问题可能让从来没自慰的人觉得自己有别于常人,感到羞耻不自在,那么这些人可能就不会说实话。

金赛采集数据的第二点问题是,受访者种类单一且数量太少。统计学家认为,这是金赛报告最大的问题。金赛采集数据的地点通常是同性恋酒吧、监狱和大学校园,采访对象主要是同性恋者、大学生和中西部居民,他几乎没有去过保守派教会社区、工厂和乡村,他的采访对象里也根本没有黑人。这份报告与其说是《人类男性性行为》,不如说是《美国中西部白人的性行为》。数据采集对象单一的问题在其他领域也不少见,有时会引发很严重的后果。很长一段时间里,医药公司的药物主要是在男性身上做实验,研究者认为,药物在男女身上的效果都一样,但事实并非如此。2001年,美国政府调查了由于副作用被撤回的十种药物,发现其中有八种药物在女性中出现了更多的副作用,而这八种药物里有四种是更常开给女性。

除了受访者种类单一,金赛采访的男性数量也太少。当时美国有6000万白人男性,这5300人的情况可能和整体6000万人有很大的差异。如何解决受访者种类单一且数量太少的问题呢?很多调查公司的方法是随机抽样,比如拿一本电话簿,随便翻开一页,再随便选中一个人去进行调查,因为完全是随机抽取的,只要数量足够多,就可以涵盖各种各样的人。遗憾的是,这种方法对金赛的研究没用,因为性行为调查是一个很敏感的话题,就算随机抽样找到对方,对方也可能拒绝采访。所以,金赛无论用什么方法得到的数据,只能来自那些对性持开放态度的受访者,那些对性保守的人压根儿不会发表意见,但在现实中占大多数的可能正是这些保守的人。

金赛采集数据的第三点问题是金赛的个人倾向。金赛不只是性行为的研究者,他本人对性的态度也是很多人探讨的话题。在美国作家詹姆斯·琼斯撰写的金赛传记中,金赛是一个双性恋,曾与其他男性有过外遇,他还鼓励自己的大学同事采取开放式的婚姻。总的来说,金赛身上有一种使命感,他认为对性的保守态度阻碍了人们成为真正的自己,自己有必要打破社会对性的各种偏见和束缚,让人们拥有更多的性自由。这种个人倾向让金赛在采集数据时会更重视那些偏离社会道德标准的样本。有充分的证据证明,金赛的报告里还包含一名性犯罪者的数据,但金赛对外谎称这个人的数据来自多位男性。

以上这些因素叠加在一起,都让金赛报告中的数据偏离了真实情况。所以在采集数据时,我们不仅要关注数据是如何采集的,还要知道是谁采集了这些数据,采集者是否对研究课题抱有个人倾向,这都可能影响数据的可靠性。

下面我们来说数据使用的第三个环节:分析。

分析数据的常见目的是寻找现象发生的原因,而人们很容易在两个看起来有关系的视线之间建立因果关系,但这种因果关系未必正确。2015年,由五位荷兰研究人员翻看了当年所有的健康新闻报道后,得出一个结论,20%的新闻稿夸大了研究结论或其主张的因果关系。作者把这种错误的因果关系称为伪因果关系。在数据分析时,我们要学会分辨这些伪因果关系。书中介绍了三种常见的伪因果关系:

第一种是偶然事件,这是说两个看起来有关系的视线其实没有任何关系,纯粹是偶然。一个很有代表性的案例是,章鱼保罗在2010年的世界杯足球赛上,通过选择贴有对战双方国旗的实物,章鱼保罗成功预测了八场世界杯比赛的结果,章鱼保罗的名气急剧上升,许多人都相信他有预知能力,他还成为了英格兰申办2018年世界杯的形象大使。但更科学的解释是,保罗并没有什么预知能力,一切都是碰巧而已。正确预测八场足球比赛的概率大概是0.4%,虽然很低,但至少比中彩票头等奖要高多了。事实上,只要我们把采集数据的范围扩得足够大,时间拉得足够长,总能在一些毫无关系的数据之间找到偶然的关联。美国数据分析师泰勒·维根开了个网站,名字就叫“虚假相关”,专门发布各种听上去非常离谱的数据关联,比如他发现每年在游泳池溺死的人数与好莱坞演员尼古拉斯·凯奇出演的电影数量几乎一样,而IPHONE手机销量的增长曲线和每年从楼梯摔落的死亡人数曲线看起来也非常相近,而这些事件之间显然没有任何关系。

第二种伪因果关系是缺少因素,这是说两件事之间确实有关系,但不是互为因果,他们都是其他因素的结果。比如有一项研究指出,吸烟的学生成绩比不吸烟的要差,这能证明是吸烟影响了学习成绩吗?并不能。更合理的解释是,那些游手好闲、对学习不感兴趣的更有可能吸烟,影响学习成绩的不是吸烟,而是这些人的生活态度。

第三种伪因果关系是反向关联,这是说两件事之间存在因果关系,但这个因果关系和我们以为的相反。举个例子,一个有钱人拥有很多股票,常见的解释是因为他有钱,所以才买得起这么多股票,但事实也可能相反,这个人在并不有钱的时候,就已经开始投资股票,通过投资赚到的钱让他变得更富有,从而能买入更多股票。

这三种伪因果关系都很常见,我们在分析数据时要小心,不要把伪因果关系错当成真正的因果关系。作者指出,现实中还有一种可能,就是有些人会把真正的因果关系宣传成为伪因果关系,以达到混淆视听的目的。1953年,美国的癌症研究人员发表了一篇论文,指出烟草中的焦油会导致癌症,这篇报道引起了美国民众对烟草的担忧和恐惧,于是烟草巨头坐不住了,他们决定要想办法安抚民众,让民众不把吸烟和癌症联系起来。这些烟草巨头采用了一个很聪明的手段,他们没有去正面论证吸烟有利健康或者吸烟和癌症无关,因为要论证这些观点,就要拿出实际的证据,而这些证据并不存在。烟草巨头的方法是去论证吸烟致癌这个因果关系不靠谱,只要让民众对吸烟的后果犹豫不决,分不清谁对谁错就可以。烟草巨头的手段之一,就是邀请记者和统计学家对吸烟和癌症之间的关系提出不同的解释,而前面说的伪因果关系都是可以混淆视听的手段。比如有学者就提出,携带特定基因的人可能既喜欢吸烟,又容易得癌症,所以得癌症的根源在于基因,而不是吸烟。还有的人会说,并不是吸烟导致肺癌,而是那些有肺癌前期症状又没觉察的人更容易感到肺部不适,为了排遣这种不适,他们才会选择吸烟。

我们要如何面对这些意见呢?作者的看法是,针对单个研究来说,这些解释确实有可能成立。然而,科学结论并不是通过单个研究得出的,而是所有相关研究的发现集合。一两个研究得出的结论可能会出错,但如果大量不同方向的研究得出的结论都是一样,那我们就可以相信这个结论。吸烟和癌症的因果关系已经被许多不同研究证明了,流行病学的调查显示,吸烟的人患有癌症的比例更高,生物学家证明动物被刷了烟草中的焦油后会长出肿瘤,病理学家们发现香烟中含有致癌的化学物质,会对细胞造成不良后果。有这么多不同方向的科学研究做支持,我们就可以相信吸烟确实会致癌。

好,说到这里,总结一下第一部分的内容。数据使用可以分成标准化、采集和分析三个环节。在标准化环节,人们采集的数据可能无法衡量研究对象的真实情况;在采集环节,采集方式、样本的种类和规模以及个人倾向都会影响数据的可靠性;在分析环节,人们可能会混淆伪因果关系和因果关系,得出错误的结论。

以上这些问题,都发生在人工使用数据的过程中。随着时代的发展,许多数据的处理都交给了计算机,人们会认为由计算机采集、分析的大数据更加全面、准确,值得信赖。但大数据其实也会误导我们。

下面第二部分,我们来说说在大数据时代,数据使用存在哪些风险。

我们还是从标准化、采集和分析三个环节出发,看看大数据可能出现的问题。

先说标准化环节。大数据在这个环节其实没什么改善,现实中永远有大量事物无法用数据来量化。很多人相信,通过大数据画像,我们可以全方位地评估一件事或一个人,这种观点就会造成问题。作者举了个例子,在金融领域,很多公司会用大数据评估一个人的信誉度,计算机会收集一个人的收入、开销以及是否按时还款等数据,再通过一套算法得出一个信用分数,金融公司则根据信用分数决定是否给一个人贷款。如果信用分数只用于评估金融消费领域的行为,就像拿智商测试评估抽象逻辑能力一样,都是合理的。但在现实中,信用分数被用在了很多金融消费领域之外的地方,成了广义上的可靠度的代名词。比如有的美国交友网站上,就会列出一个人的信用分数,人们会认为信用分数高的人才值得交往。此外一项研究指出,美国约有47%的雇主会查看求职者的信用记录,有相当一部分人在求职时会因为信用记录不佳而不被雇佣。雇主们认为,通过了解求职者的信用情况,就可以评估他们未来是否会做出欺瞒公司的行为,但目前没有任何证据证明一个人的借贷行为和他在职场上的表现有关,少数几项这方面的研究结论都是两者没有关系,这就是典型的数据滥用现象,本质上和用智商代表智力没什么区别。

再来看看大数据在采集环节的问题。客观的说,大数据在这方面做得很出色,前面说的采集环节存在的问题在大数据时代都有了极大的改善。依靠无处不在的互联网和各种传感器,计算机可以直接从行为层面收集海量的个人数据,这大大提高了数据的可靠性。拿性行为的调查为例,有的人会拒绝调查或者说谎,但计算机可以通过访问这个人的上网搜索记录和聊天信息,来得知他对性的真实态度。尽管如此,大数据在采集上依然存在纰漏。2012年,美国联邦贸易委员会就注意到,来自某个征信机构的信用报告中,至少有1/4的个人数据有误,而在这1/4中,有大约5%的数据错得离谱,这会导致这些人在贷款时面对更高的利率。在2009年到2010年间,英国的医疗系统中还出现过17000名怀孕的男性,这是因为系统把这些男性的手术注册代码错认为妇产科的注册代码。所以盲目相信大数据的准确性同样是危险的。

与此同时,大数据的采集本身就可能造成问题。通过各种手机app的监控和扫描,很多个人数据是在本人不知情的情况下被采集的,这侵犯了个人隐私。个人数据还可能被不法分子利用,许多国家都有数据交易的地下黑市,只要花钱就能买到别人的身份证信息、电话号码,甚至是常用网站的账号密码,有些人就会用这些数据进行犯罪活动,比如冒充他人去申请信用卡或者贷款消费。

最后说一下分析环节,这是大数据的弱项。计算机只会告诉我们某些现象之间存在关系,至于这个关系到底是偶然、是有第三方因素影响,还是真的因果关系,计算机并不知道,这就会误导我们的决定。前面说过,只要采集数据的范围扩得足够大,总能在一些毫无关联的数据间发现偶然联系,这个问题在大数据上会被进一步放大。谷歌在2008年推出了一个叫“流感趋势”的算法,谷歌认为,通过统计人们在得流感时搜索的关键词,就可以提前预测流感爆发的地点和规模。这个算法在开始的两年确实能够准确预测流感爆发,但在随后的几年里都出现了错误的预测。这是因为算法是通过分析某些关键词出现的频率来预测流感,但这个关键词到底和流感有没有关系,算法是无法判断的,算法只是发现这些关键词在过去出现的频率和流感传播有关,而这种关系完全可能是偶然,由此做出的预测自然可能出错。比如谷歌的研究人员就发现,算法预测流感的关键词之一是“高中篮球”,谁也说不清这个关键词和流感有什么关系,最后只能手动删除了这个关键词。

作者还指出,如果我们不去探索现象之间真正的关系,只根据大数据的分析结果行动,可能无法解决问题,甚至会加重问题。美国警察系统里有个叫“预测警务”的算法,会通过统计犯人的各种特征来预测哪些人未来可能犯罪,从而提升抓捕罪犯的效率。算法分析显示,贫穷的年轻黑人和犯罪之间有十分明显的关联。黑人犯罪率高的原因很复杂,包括了黑人的教育、环境、经济水平等各种因素,但算法并不会去探究这些原因。在算法的指引下,警察会重点关注符合这些特征的黑人,逮捕这些人的频率也就更高,造成不少黑人被冤枉。而且因为被捕黑人的数量上升了,又导致社会上形成对黑人的歧视,让黑人难以找到工作,生活条件恶化,这会反过来促使黑人犯罪率的提升,引发更多的种族冲突。从这个例子可以看到,我们使用大数据时,就是在按大数据的方向去塑造现实。作者认为这是特别要警惕的一点。正如前面说的,生活中有很多事物无法用数据量化,比如信任、正义、关爱等等,当我们过度依赖大数据的分析结果去决策,就可能忽视甚至损害这些重要事物,反而制造出更多的社会问题。

好,说到这里,我们总结下第二部分的内容。在标准化环节,大数据对个人的信用分数可能被滥用;在采集环节,大数据虽然在准确度和数量上都有进步,但依然可能出错;在分析环节,大数据只会告诉我们现象之间存在关系,如果我们不去探究这个关系到底是什么,就可能会被分析结果误导。

说到这里,《数据如何误导了我们》这本书也介绍的差不多了。作者认为在当代社会,数据对生活的影响无处不在,所以我们更需要关注数据的正确使用,避免被数据误导。现在有许多国家意识到了数据的局限性,美国有多个州已经禁止雇主查看求职者的信用数据,在荷兰,一些老师不再只用分数代表孩子的成绩,而是为孩子提供更具体的反馈意见,帮助孩子成长进步,这都是数据使用上的进步。数据是由人类创造的,该如何使用数据也取决于人类自己,我们应该成为数据的主人,而不是数据的傀儡。

好,《数据如何误导了我们》这本书就为你解读到这里。



"感谢喜欢,赞赏支持是对我的鼓励。"

微信收款码   微信收款码

很赞哦! (0)

上一篇: 《数据的真相》

下一篇: 《数据之巅》

发表评论

本栏推荐