您现在的位置是:网站首页>经济经济

《统计数字会撒谎》看似实锤的各种统计数据,背后都是套路

铛铛铃2025-08-22经济22人已围观

简介

在我的超越智商读书分享中,在聊到如何提高自己的反省心智、培养理性思维时,我特别提到过一本书《统计数字会撒谎》。今天呢,就和大家聊一聊这本书。开始前呢,我们从一个常见的场景聊起。相信大家经常看到媒体上描述我们所在的行业或城市的平均收入时,绝大多数人会感到自己的实际收入远低于报道中的平均收入。新闻里的平均数往往用的是算术平均数,即工资总额除以人数,而往往那些少数的收入极高者抬高了整体的平均值。那如果用中位数来算,即如有100人从高到低排序,第50人的收入作为平均值,是否没毛病?我曾看过某销售公司的招聘材料,宣传员工年收入的中位数是60万,的确很高,而且看上去比算术平均数合理。可我稍微打听了下,原来这公司刚刚淘汰了排名后30%的销售人员,所以中位数显著高于行业平均水平。看似实锤的各种统计数据,背后都是满满的套路。所以统计这种神秘的语言,很多时候看似证据确凿,实际却被无意或有意利用,成为恶意夸大、忽悠他人的工具,并让人作出错误的决策。

1954年,达莱尔·哈夫写下了《统计数字会撒谎》这本书,一经出版便畅销美国长达60年,并被翻译成多国文字,在世界流传。达莱尔用风趣的插图和通俗语言,把高深的统计学写得像故事书一样精彩,给你揭露大量至今仍被销售员、专家、记者或者广告撰稿人沿用的行骗方式,如使用偏差样本、遗漏某些重要数据、混淆因果关系等。这本书是史上流传最广泛的统计学普及读物之一,与《漫步华尔街》《股票作手回忆录》等一起,并列为所有时代最伟大的25本投资经典之一。它将快速教会你如何避免被数据忽悠,如何看懂这些数据背后真正的故事,从而作出正确的决策。

这本书我主要想跟大家分享三点:第一点是作者重点列出的日常工作生活中常见的八种误导方式;第二点告诉大家统计资料是如何被操纵的;第三点是如何反驳统计资料,即只要通过五个问题,凭你双眼就能识破被揭穿虚假的统计资料。更为重要的是,在具有欺骗性的数据海洋中找出可靠有用的资料。

好,下面我们先来说说有哪八种常见的误导方式。

一、内在有偏的样本

先从1949年的一篇新闻报道说起,报道说1924级的耶鲁毕业生平均年收入为25111美元,这在当时是一个非常高的收入,会让你感到只要把孩子送进耶鲁大学,她的下半生一定富贵。可真是这样吗?常识告诉我们啊,25年后能够取得联系的人并不多,而且许多人不会回答涉及隐私的问卷,所以这个收入的数据局限在一个特定的样本上,即能够取得联系并愿意回答问卷的耶鲁学生。那么这个样本真的有代表性吗?能代表没联系上以及没回答的毕业生吗?而且还要假设他们说的都是真话,也就是说,这个统计样本是有偏向的。所以为了确保统计有价值,根据抽样得出的结论一定要采用具有代表性的样本,即完全遵循随机原则从总体中选出样本。但因为这样的难度很大,并且十分昂贵,所以目前民意调查和市场研究会采用分层随机抽样,而分层抽样的规则会最终影响调查的结果,典型的属美国大选,民意调查往往和结果有较大的误差。所以看统计结果时,务必要了解它的样本是如何选择的。

二、精心挑选的平均

平均数的算法有三种,而且结果完全不一样,但都是正确的算法。以一个小区为例,如果你是房产销售,想让购房人认为小区住户平均收入很高,那么就会用算术平均数计算平均收入。如果为了降低税率,宣称小区收入低,支付不起各种上涨的费用,那么就会用众数,即出现最频繁的数字,这往往是小区占比最多的低收入人群的收入。而中位数则在算术平均数和众数之间,所以对于平均数一定要非常谨慎,避免被误导。

三、没有披露的数据

如某广告标题“用户反映使用多克斯牌牙膏,将使蛀牙减少23%”,结论出自一家信誉良好的独立实验室,并且还经过第三方机构证实,听上去是一款非常好的产品。可如果你看下广告下方一排小字,可能写着被测试用户12人。实际上,绝大多数广告商还会索性将类似的文字删除。如一种叫柯迪斯博士的牙粉宣传“治疗龋齿获得极大成功”,可实验仅仅建立在六个案例之上。所以在被告知某个调查结果时,记得问一句,为了得出这个结论,你调查了多少名被访者?

四、毫无意义的差别

某知名杂志曾经做过一个不同品牌香烟尼古丁及其他有害物质的含量的研究,并将结果刊登,得出的结论是,无论你吸什么牌子的香烟,对身体的危害不会有太大的差异。可是这篇文章中,有害物质含量排名最后的香烟厂家却以此调研作为广告,大肆宣称“国家级杂志组织实验,表明自己的香烟有害物质含量排名最后”,而研究原文中关于各个品牌的差异并不显著的表述,厂家却只字未提。正如同50步笑百步,在比较相差不大的数据,大部分时候没有任何的意义,毕竟所有的抽样统计都会有误差,只有这些差别大到足够有意识,才能称之为差别。

五、令人惊奇的图形

人们对于数字似乎有一种天生的畏惧,因而在很多广告中都会采用画图的方式,最常见的就是直线图。在显示趋势时,直线图非常有用。书中用同一组数据做出了三张看上去完全不一样的图表,如将图表的纵轴省略一半,会让原来缓慢上升看上去很平缓的曲线显得有非常明显上升;如改变横坐标与纵坐标的比例关系,将纵坐标的每一刻度缩减为原来的10%,那这时曲线将上涨得更加猛烈。可见,完全相同的数据却可以给你带来了完全不一样的视觉幻觉。所以阅读统计图时,一定要详细了解横坐标和纵坐标的数值。

六、柱形图的滥用

柱形图是一种非常便捷、常用的方法,但是柱形图也具有欺骗性。如A国家的收入是B国家的两倍,那么传统的柱形图我们会看到A国家柱形的长度是B国家柱形长度的两倍。可是别有用心的人会用三维的象形图,由于物体的三维效果,往往变成了2×2×2,即八倍的视觉效果,不经意间就扭曲了真实。所以看象形图时一定要小心,数字是二比一,可能视觉效果却是四比一甚至八比一,毕竟在大多数的时候,视觉效果起着决定性的作用。

七、不完全匹配的资料

如果你想证明一件事,却发现没有能力办到,那么就试着解释其他相关的事情,并假装它们是一回事,这样很可能会把人唬住。如美国与西班牙交战期间,美国海军的死亡率是9‰,而同一时期,纽约市居民的死亡率是16‰,后来海军征兵人员就用这些数据来证明参军更加安全。这些统计数据看上去似乎还真是这样,可你总觉得似乎有点不对劲,打仗怎么可能死亡率比在城市低呢?原因在于这两组对象根本不具备可比性,海军主要由那些体格健壮的年轻人组成,而城市居民则包括婴儿、老人、病人这些死亡率较高的群体。两个完全无法比较的数据,并不适合放在一起对比,得出参军更安全的结论。收集不相关资料,把完全不同的两件事混淆在一起,就像挂羊头卖狗肉一样。

八、相关关系的误解

相关关系的误解是我们常见的一种统计误区。如英国一座岛屿上的土著居民发现,健康人身上总有一些跳蚤,而那些即将死亡的人身上通常没有跳蚤,于是他们得出结论,跳蚤使人体健康。之后,甚至有人依据这个现象在医学杂志上发表了论文。直到后来,细心地观察者最终发现了真相,原来几乎每个土著居民身上都有跳蚤,只是当人们发烧时,随着体温上升,跳蚤不能承受高温就离开了。还有人因为冰淇淋销售数据和溺水死亡人数同步提高,得出结论,冰淇淋销售火爆会导致溺水死亡的人数显著提高。可事实上,这是因为夏天时冰淇淋销量高,同时夏天游泳的人多,溺水死亡的概率大,这两者并没有相关关系,只是有着相同的趋势而已。所以两个事物之间有相同的趋势,并不能用于说明其中一个将引起另一个的变化。

了解了八种常见的误导方式,接着我们来说第二个要点,统计资料是如何被操纵的。许多统计资料的歪曲和被控制,并不是资深统计学家所为,而是出自资深统计学家之手的完善资料,最终被销售人员、营销专家、记者或广告撰稿人扭曲、夸张、简化或刻意地进行挑选。美国普查局的年度分析中写道,美国家庭的平均年收入是3100美元,可是由于拉塞尔·塞奇基金会发布的一篇新闻中,这个数据却是惊人的5004美元。那为什么这个数据跟普查局的数据差距这么大?原来普查局用的是中位数,这是一种合理的计算方法,而拉塞尔·塞奇基金创造了一个假想的家庭,他们将美国居民的总收入除以总人口数,得到人均1250亿美元,所以一个四口之家的总收入125乘以四五千零四美元。这种奇怪的算法在两个方面进行了夸张,一方面,他使用的算术平均数,而不是更具代表性、偏差相对较小的中位数;另一方面,她假设家庭的收入和人口数成正比,实际上,四口之家的财富绝不一定是两口之家的两倍。这也正如我们之前所说的,对那些未加解释的平均一定要谨慎。

为了使最声名狼藉的统计资料看上去更有分量、更精确,小数的使用也能骗取人们的信任感。如询问100个人昨晚的睡眠时间,然后宣布人们平均每天睡眠七百八百三十一小时,听上去就给人非常专业的感觉,可如果你说78小时或差不多八小时,就失去动人的准确性,即使这点差距并没有什么意义。此外,百分数也给误解提供了肥沃的土壤,和小数一样,它也能为不确切的事物蒙上仿佛精准的面纱。如“现在就购买你的圣诞礼物,你将节省百分之百”,这则广告听上去就像圣诞老人免费的馈赠,但实际上它混淆了比较的基础,相对于原来的价格,价格只缩减了50%,虽然对于打折后的价格而言,减少量确实是100%,但这与广告上的内容可不一样,这就是变换基数所产生的幻觉。此外,将一些看似能直接相加却不能这样操作的事情加在一起,会产生大量的欺骗和隐瞒。如《纽约时报》书评有这么一段,种植和加工成本在最近10年上升了10%12%,材料成本攀升了6%9%,销售及广告成本上升了10%以上,将所有这些加起来的话,总成本至少上升了33%,听上去很有说服力,可是换个角度想下,你要买的东西涨价了5%,你买了20个,难道一共要多付了100%

统计不仅是科学,还是一门艺术,统计方法的选择会影响我们对事物的判断,数据是否合理使用也依赖统计工作者的意志,但在商业活动中,统计工作者不大可能选择不利于自己的方式,就像撰稿人在描述赞助商的产品时,不会使用易碎、价格低贱的字眼,而是会说轻便、经济、实惠。说完第二个要点,我们总结一下,各种统计操作在我们的日常工作生活中非常普遍,我们在报纸、杂志和书籍看到统计资料、结论以及数据时,应该经过认真地思考后再接受它们。

那么接下来我们就说第三个要点,怎样凭双眼就能识破虚假的统计资料并揭开它们的老底,这只需要通过五个问题。

一、谁说的

首先要寻找的是偏差,出于学术名誉和收入的考虑,统计数据工作者都有可能产生偏差,有些是有意识的偏差,这种偏差可能是错误的陈述,可能是不易被揭穿的含糊之词。其次,测量标准的改动和使用不正确的测量方法,都会产生偏差。当某个权威人士被引用时,要弄清到底是因为资料内容确实符合,还是仅仅要扯上权威人士的大名。

二、她是如何知道的

我们需要知道这些统计数据是如何产生的,如样本是否有偏、样本是否足够大,从而能解释问题,观察值是否足够多,从而能保证结论的可靠性。

三、遗漏了什么

通常,你并不会被告知包含了多少观测值,特别是当信息来源于与信息存在利害关系的一方时。当均值与中位数相差甚远时,需要注意那些没有标明类型的平均值。很多数据因为没有比较而变得缺乏意义,有时仅给出百分数,却缺少原始数据,也能造成欺骗。看到一个指数时,你或许应该关心指数的基数是什么。

四、是否有人偷换了概念

在分析统计资料时,请留心从搜集原始资料到形成结论的整个过程是否存在概念的偷换。正如疾病案例的增加不能等同于发病率提高,民意调查中的获胜也并不等同于竞选时的获胜,读者对全球时事文章的偏爱也并不说明如果杂志刊登此类文章会提高杂志销售量。此外,数据统计口径的变化也会形成概念偷换的效果。

五、这个资料有意义吗

如果接触到的资料是建立在未经证实的假设基础之上,你需要发问这个数据是否有异议。20世纪50年代,社会保障法修正案的听证会上,有一个争论是,既然预期寿命大约只有63岁,将社会保障计划中的退休年龄规定为65岁是惺惺作态。可当时美国的这个年龄数据是根据1934年到1941年的生命周期表计算的,当时还是二战期间,而且也已经过时了,实际的平均年龄早就超过了65岁。

上面为你讲的是这本书的第三个要点,即看到任何统计数据,尤其是需要由此作出重大决策时,不妨从这五个问题入手,避免被错误的数据忽悠。

好了,《统计数字会撒谎》这本书讲的差不多了,接下来为您总结一下今天的分享。日常工作生活中,大家越来越重视用统计来说话,但是大量的统计数据和资料由于主客观原因被滥用,以至于看似都是证据确凿,但却成为恶意夸大、忽悠他人的工具。本书讲解了八种常见数据欺诈方式,如有偏的样本、精心挑选的平均数、没有披露的数据等等,告诉大家统计人士是如何通过操纵统计数据来忽悠你。但不用担心的是,你只需要通过五个问题,就能识破并揭穿虚假的统计资料,并在具有欺骗性的数据海洋中找出可靠、有用的资料,不再让你的关键决策南辕北辙。

当然,这本书也有一些遗憾的地方,毕竟写于60年前,不少案例和数据有点过时,加上翻译不够信达雅,阅读体验一般。如果你觉得有兴趣,不妨花点时间深度阅读下这本书,相信会对你有巨大的帮助。

以上我讲述的内容基于20093月中国城市出版社出版的《统计数字会撒谎》第一版。另外,这本书和中信出版社的《统计数据会说谎》、上海财经大学出版社的《统计陷阱》原著是同样的,但翻译略有不同。愿好书陪伴你成长。



"感谢喜欢,赞赏支持是对我的鼓励。"

微信收款码   微信收款码

很赞哦! (0)

发表评论

本栏推荐