您现在的位置是:网站首页>科普科普
《数据的真相》
铛铛铃2025-09-14【科普】2人已围观
简介
今天为你解读的书是《数据的真相》,副标题是“如何在数字时代做出明智决策”。
说到数据,或许啊,你先想到的是最近几年来非常热门的大数据概念。通过对大量数据的处理和分析,我们可以优化交通路径,预测选举结果。但今天要讲的数据是我们身边的小数据,从食品标签到天气预报,从银行账户到医疗卫生,人们依赖这些小数据做出决策。但商家为了自己的利益,有意发布大量扭曲和筛选过的小数据,来误导消费者,为我们设下了数据陷阱。
《数据的真相》这本书讲述了数据统计中的一些重要概念,帮助你解读生活中的小数据,教会你在海量的数据中识别数据谎言,挖掘有用信息。
本书的作者是约翰·约翰逊和迈克·格鲁克。约翰是美国麻省理工学院的计量经济学博士,作为一名数据专家,他开着一家经济咨询公司,要求决策者把经验数据作为决策依据。这家数据驱动型公司被美国国家电视台、华盛顿邮报等媒体争相报道。另一位作者迈克,毕业于约翰·霍普金斯大学,是一家广告公司的总裁。作为一名营销专家,迈克特别擅长于用平实易懂的方式解读复杂的话题。
好,那接下来我们就从四种陷阱中揭示数据的真相,分别是样本陷阱、平均数陷阱、因果性陷阱和结论陷阱。
首先看第一部分,样本陷阱,说说抽样如何影响结果。
2017年,中国人幸福指数在全球排名第79位,但似乎没有人问过你是否幸福。中国男性平均身高167.1 cm ,但好像也没有人量过你的身高。既然你的信息从来没有被采集过,那这些数据又是如何来的呢?这里就引出一个统计学上的概念——样本。这些结论正是通过对样本的分析得出的。样本是从总体数据中抽取出来部分数据,用来代表总体数据。
为何不直接对总体数据进行统计分析,而是借助样本来反映总体情况呢?在研究实际问题时啊,如果掌握的是研究对象的全部数据,这自然是最好的,这样只需要做些简单的统计,就可以得到有关总体的数量特征,比如总体数量的平均数,就代表了总体的一般水平。但现实情况比较复杂,有些研究对象的范围比较广,难以全面覆盖,比如海水的含盐量;有些研究对象的数量庞大,比如中国男性的平均身高;有些研究测试带有破坏性,比如检测一批灯泡的使用寿命。因此,我们不可能也没有必要对总体中的每个单位一一测定,这个时候就需要从总体中抽取一部分单位进行调查,进而利用样本提供的信息来推断总体的数量特征。比如啊,电视台想要了解观看某一节目的女性观众比例有多少,可以抽取一部分观众进行调查,根据样本中女性观众的比例来推断整体的比例。
不过在具体选择样本的时候,有三点需要注意,分别是样本的代表性、真实性和随机性。如果样本不能符合这三点,那结论就会走向谬误。
我们先来说说样本的代表性。代表性是指对样本的研究发现要能推广到总体数据。影响样本代表性的一般有两个原因,分别是样本大小不合适和抽取数据太片面。
第一个原因,样本大小不合适。样本大小直接影响抽样是否存在误差。比如啊,我们要知道中国人的身高,然后从全国随机抽取了200个人作为样本。此时呢,样本量就太小了。中国这么大,人这么多,随便随机抽取,仍然会有部分地区的身高数据不能被采集到。这时候,从如此小的样本中获取的结论就不具有代表性。但样本量太大也不行,如果抽样的数目过大,尽管会使抽样的误差减少,但它会增加调查的工作量,耗费的时间和经费会增多,这样就体现不出抽样调查的优越性了。
那到底选取多少样本才是合适的呢?这个问题很复杂,涉及到研究对象处于怎样的状态、结论需要怎样的精确程度等等。这里我们只要学会在看到统计数据时,注意样本数量,发现数据的不合理之处就可以了。
第二个原因,抽取数据太片面。片面的数据会让样本丧失多样性。比如啊,目前美国心理学研究就呈现了一个特点,研究结论并非基于涵盖面广、差别性大的人群,而是仅仅基于人类总体的一小部分——美国人。美国人口占世界人口不到5%,但在某些研究中,却占了样本的60%以上。世界上其余95%的人口都被心理学家忽略了,而只对如此片面的数据进行研究,是无法准确得出反映整个人类身心的理论的。
抽取片面数据的现象不仅限于学术研究中,在广告和商业活动中,商家们会故意对样本进行筛选,得到对自己产品有利的结论。比如啊,在儿科医生推荐婴儿食品的数据中,某些母婴品牌声称有4/5的儿科医生推荐了本品牌,但其实呢,这家公司对数据进行了筛选,真正推荐这个品牌的儿科医生只有12%。很多儿科医生考虑到婴儿食品的添加剂问题,其实呢,并没有推荐任何产品,而这家公司完全剔除了这部分数据,这就造成了一个假象,就是4/5的儿科医生推荐使用该品牌。
再说样本的真实性。样本不仅要能代表整体数据,样本还必须是真实的。如果样本数据是虚假的,从虚假中得出的任何结论都是没有意义的。这里要特别注意自陈式数据的真实性。自陈式数据指的是从人们自我陈述中获取的数据,这类数据的真实性特别值得怀疑,因为人们在回答关于自身的问题时总会不诚实,他们很难客观理解和评价自己的行为。有研究表明,美国有55%的人认为自己比一般人更聪明,93%的人说自己开车要超出中等水平。这些调查都是真实的,但我们有理由否认这些数据的真实性,因为一半以上的人觉得自己比一般人要优秀,这怎么可能是真实的呢?
最后来说说样本的随机性。如果样本并不是随机抽取的,那么样本也有可能得不出有意义的结论。为什么这么说呢?我给你举个例子啊。1969年,美国深陷越南战争的泥潭,已经长达4年,但还是看不到一丝胜利的曙光。此时美军在越南伤亡的人数越来越多,国内也掀起了反战运动,越来越多的年轻人开始逃避兵役。当时的兵役存在着问题,有钱有势的子弟可以推迟甚至免除兵役,这对普通人十分不公。为了平息公众对征兵制度的愤怒,美国征兵部门开始实行抽签制度,通过随机抽取生日来决定哪些人上战场。按道理啊,既然是随机抽取,每个人被抽中的可能性是一样的,那对所有人都是公平的。但是第2年,《纽约时报》发表了一篇名为《统计学家指出征兵抽签并非随机的》的文章。这篇文章指出,12月份出生的人比1月出生的人被抽中的可能性更大。这是为什么呢?原来啊,当时所有人的出生信息是按月份分别放进12个盒子里的,工作人员先将1月份的纸条倒进抽签箱,再放2月份的,所以月份越靠后,纸条就放在上层,自然就容易被先抽出来。
数据统计中的样本之所以重要,那是因为不同的样本可能会带来截然相反的结论。假设有一家小餐馆,从中午营业到晚上。某一天,店主每逢整点就数一下就餐人数,发现中午12点和晚上六点的人数比较多,其余时间都是寥寥几人。如果一位有意盘下这家店的人来问店主生意怎么样呢,店主会选取中午和晚上的客流量作为样本,显得餐厅人气爆满。如果是餐馆的房东来了,告诉店主店面要涨价,店主又把样本换成了下午和深夜,他会跟房东说:“唉,不能涨啊,我这个餐馆大部分时间连个人都没有。”餐馆店主正是通过研究不同的样本,得出了两套相反的结论。
好了,到这里呢,第一部分就结束了。面对任何数据和结论的时候,你要问自己三个问题:这个数据的样本具有代表性吗?样本是不是真实的?样本是不是随机抽取的?这三个问题可以帮助我们避开样本陷阱。
第二部分:平均数陷阱。这一部分将教会我们识别数据呈现的是哪一种平均。
大多数人听到平均数,都认为讲的是算数平均值,也就是把所有样本数据相加,再除以样本个数得出的。但其实呢,能反映样本一般水平的平均数除了算术平均值外,还有加权平均值、众数和中位数。如果不能分清这些平均数的区别,我们就容易对样本形成错误认识。
我们先来说说算术平均值。它的优势在于抽象出了群体某一方面的代表值。如果要研究的样本各个数据都不相同,比如某个生产小组有十名工人,他们的工资都不等,这个时候要说明这十名工人的一般水平,显然是不能用某一个工人的工资做代表,而应该计算平均工资作为代表他们的一般水平。但是算术平均只有三个缺点:不能反映各数据的重要程度,忽视了数据之间的差距,以及容易受到异类数据的影响。
第一个缺点,不能反映各数据的重要程度。使用算术平均值,其实呢,暗示了所有数据都是同样重要的。但我们知道,每一个数据对总体情况的重要性是不同的。比如啊,评估学生成绩是通过三次考试:一次小测验、一次期中考试和一次期末考试。但是这三个测试的难度是不一样的,期末考试最难,期中考试其次,而小测验最简单。如果只是简单的将这三个数据相加,再除以三,这就掩盖了这三个数据的不同的重要性,最后得出的算术平均值也不能准确反映学生们的学习成绩。正确的做法是按照重要性不同,赋予期末考试、期中考试和小测验不同的权重,可以是50%、30%和20%,然后将这些权重和相对应的考试分数相乘,再加起来得出的加权平均数,就更为准确地体现了学生的表现。
算术平均值的第二个缺点,不能反映数据的具体差距。比如说,在联合国颁布的全球幸福指数报告中,排名第一的是瑞士,英国排名第21位。这里的排名取的是这个国家各个地区的算术平均值,但这种衡量方式无视了各数据的具体差异。就拿排名第21位的英国来说,拿1~10来打分,英国的幸福指数平均值是7.3,但如果更进一步的观察英国的幸福指数,你会发现,英国不同地区的幸福指数不尽相同,有不少地区能达到7.9,比排名靠前的国家的某些地区幸福指数要高得多,但算术平均值掩盖了这些数据的差异,造成英国幸福指数比不上瑞士的片面印象。这时候采用众数就可以避免这个陷阱。众是众多的众,众数是指总体中出现次数最多的那个数据,更能反映样本数据的集中趋势。比如啊,在英国多数地区的幸福指数集中在7.6,极少数地区低于这个值,才拉低了整体的平均值,此时选择众数7.6更能真实反映英国的一般水平。
那算术平均值的第三个缺点,就是容易受到异类数据的影响。异类数据是指那些和其他数据格格不入的数据。比如啊,在一群身高2米上下的篮球运动员中,有一个1米7的普通人加入,这个1米7的数据就是异类数据,这些异类数据会对平均值产生巨大的影响。此时采用中位数就能避免这个缺陷。将数据按大小顺序排列,中位数是处于排列中间位置的那个数据。中位数将样本数据均等地分为两半,其中一半数值是小于中位数的,一半数值是大于中位数的,因此它就不受极端变量值的影响。
即便我们已经分清数据呈现的是哪一种平均了,但如果只是依赖于数据的某一个方面的平均,还是容易对样本形成错误认识。比如从两个学校抽取两组女孩,一组平均体重90斤,一组平均体重100斤,你可能会认为前一组女孩更苗条,但如果再考虑到两组的平均身高,你就会发现,虽然前一组平均体重远远低于后一组,但是他们的平均身高却远远低于后一组,所以实际情况是,后一组的女孩比前一组的女孩要苗条得多。如果因为某一方面的指标而匆忙下判断,就会让我们陷入平均数的陷阱。
好了,说完平均数的陷阱,接下来我们来说说第三种陷阱——因果陷阱。这部分将教会我们分清关联性和因果性。
什么是数据的因果陷阱呢?举个例子,最新数据显示,聪明的人具有以下特征:都戴眼镜、使用苹果手机、睡得晚;是左撇子、较能喝酒。以上特征被认为与智力有着特殊的联系,因此,如果你想让孩子聪明些,就给你的孩子配上眼镜和苹果手机,再培养他喝酒和用左手的能力,最好还能让他睡得再晚些,你的孩子一定会智力优秀。这是不是很荒谬?
在现实世界中,许多现象之间都存在一定的依存关系,这种依存关系我们可以称之为事物之间的关联性。关联性可以分为因果关系和非因果关系。因果关系是指某一变量是受另一变量影响的,比如某一区域环境碘的含量异常,就会引起这个地区甲状腺发病率的增加,它们之间就存在着明显的因果关系。但具有相关关系,并不代表着二者是因果关系。例如,中国国内生产总值与印度的人口具有较强的相关性,因为二者都以较快的速度增长,但显然二者之间不具有因果关系。
还有一个典型的将因果关系和关联性混淆的例子是出生月份和能否成为足球运动员。有关足球研究机构的最新研究报告显示,出生于每年的头几个月有助于成为职业球员。该机构统计了欧洲30一个国家顶级联赛的近3万名球员的出生数据,发现出生在每年前三个月的球员占比最多,达到30.5%,而每年最后三个月出生的球员只有19.3%。这是为什么呢?难道真的是出生时间影响了一个人是否能成为足球运动员吗?真相是,这可能和球员的选拔机制有关。在青少年时代,同一年出生的球员放在一起训练,出生在前几个月的球员因为身体发育更好,相对更容易脱颖而出,而十三四岁甚至更早的年龄阶段,早出生半年在身体上有着明显的优势,所以出生时间和是否成为足球运动员只是相关关系,并不是因果关系。
什么导致关联性和因果性的不同呢?是遗漏变量。很多时候变量不止两个,你掌握了两个变量之间的关系,但实际上有第三个至关重要的变量被遗漏了,这个变量就是遗漏变量。在出生年月和成为足球运动员这两个变量之间,就有一个遗漏变量,那就是球员的选拔机制,是选拔机制让同一年的准球员一起受训,使得早出生的球员们在身体素质中占有优势,才能脱颖而出,成为专业的足球运动员。如果不能识别出这个遗漏变量,结果就会走向谬误。
那如何识别遗漏变量,确定两个变量有因果性还是只具有关联性呢?作者提供了两个建议。第一,问一个简单的问题:还有什么因素可以解释这件事情?比如啊,聪明的人之所以戴眼镜,可能是因为聪明的人阅读时间都很长,而长时间的阅读会影响视力,所以阅读时间就成了遗漏变量。第二,看符不符合你的常识。比如冰激凌消费量越大,犯罪率就上升,这个关系明显不符合我们的常识,我们不可能通过减少冰激凌的销售来降低犯罪率。事实上,冰激凌销售和犯罪率之间有一个遗漏变量,就是室外温度。当室外气温变暖,比如在夏天,人们更爱吃冰激凌,同样因为夏天白天就比较长,人们也常开窗户,这些因素都使得犯罪率提升。
到这里,第三部分就结束了。面对任何言之凿凿的因果关系,你要问自己三个问题:这个关系到底是真有因果性,还仅仅只是关联性?还有什么因素可以解释这种关系吗?这种关系符合你的常识吗?这三个问题可以帮助我们避开因果性陷阱。
第四部分是结论陷阱。这部分将教会我们看清结论是否可靠。
生活中啊,我们会接受一系列结论,这些结论因为有专家背书、权威机构证明,所以显得言之凿凿,不容置疑。但你依然要问两个问题:第一,这个结论有多大程度是可信的,会不会存在巧合?第二个问题,这个结论对我们是否有意义?这两个问题能帮助我们理性看待结论,正确决策。
先看第一个问题,这个结论有多大程度是可信的。比如啊,你有一个朋友说自己箭无虚发,然后他射了一箭正中靶心,你觉得他确实射的准,但是这个结论可信吗?你只看他射了一箭,怎么能确认他是能力出色还是运气好呢?此时,我们可以用统计学里的一个概念来判断,它就是显著性差异。如果他的射箭成绩和能力存在显著性差异,就可以认定你的朋友确实射箭能力突出。那怎么算是有显著性差异呢?这里有一个标准,一般用概率值表示,也就是出现不同结果的概率,这个数值越小,就说明这个结论的可信度越高。具体到你朋友的这个例子,怎么判断他到底是真射得准还是运气好呢?办法就是他再多射几次,如果你朋友把把都中,这时候的概率值是零,那么你朋友箭无虚发的结论就是可信的。但如果他有好几次脱靶,此时计算出的概率值就偏大,说明他确实有一定的运气成分在里面。
第二个问题,这个结论对我们是否有意义。就算一组数据呈现出显著性差异,你还是要问一个问题:这个研究将对我们的生活有什么作用?比如啊,很多论文声称咖啡对某种疾病有预防作用,比如咖啡能预防癌症、糖尿病、心血管疾病,但好处有多大呢?是能把癌症发生率降低10%,还是0.00001%呢?如果是后者,咖啡能预防癌症这个结论对我们又有什么意义呢?而且啊,光看结论的效应还不够,我们还要看结论的经济成本。有研究显示,长期食用燕窝能美白,但相较于长期服用燕窝所付出的高额费用,燕窝能美白这个结论对大多数人都没有异议。
所以,面对那些从数据中得出的结论,我们要追问两个问题:这个结论有多大程度是可信的?这个结论对我们的生活又有什么意义?回答这两个问题,能帮助你走出结论陷阱。
好了,说到这里,《数据的真相》这本书就讲的差不多了。最后我们来总结一下如何识别数据陷阱,看透真相。
有时候,揭示真相的最佳方法是问问题。在这个利益纠杂的世界,每个人都试图用数据来说服你。在面对身边的数据时,我们可以通过一系列问题来挖掘数据背后的真相:数据样本有代表性吗?真实吗?是随机抽样的吗?数据呈现的平均是哪一种?变量之间真的有因果关系吗?最后,这个结论是真实的吗?对我们有意义吗?这些问题都能让我们成为一个成熟的数据接收者,在生活中做出明智决策。
好了,《数据的真相》这本书就为你解读到这儿。
"感谢喜欢,赞赏支持是对我的鼓励。"
很赞哦! (0)
上一篇: 《如何创造可信的AI》
下一篇: 《数据如何误导了我们》