您现在的位置是:网站首页>科普科普

《数据之巅》

铛铛铃2025-09-14科普1人已围观

简介

今天为你解读的书是《数据之巅》。

说起数据,很多人对大数据这个名词已经习以为常了。进入21世纪以来,因为信息技术的迅猛发展,数据能够随时随地地被自动记录下来,人类通过梳理海量数据来发现新知识,创造新价值。

其实,在进入大数据时代之前,我们还经历了200多年的小数据时代。与大数据不同的是,那个时候的数据主要源自主动测量,数据量不全面,处理方式也很局限。可是虽然小,但仍然创造了很多奇迹,并且形成了数据文化。

今天要讲的《数据之巅》这本书,以美国历史为主线,用一个个生动的历史事件,梳理了美国数据文化的形成,阐述了数据治国之道。我们可以通过阅读这本书,思考如何在大数据时代实现弯道超车,甚至引领新的数据革命浪潮。

这本书的作者涂子沛,是阿里巴巴集团前任副总裁,著名的信息管理专家,毕业于计算机专业的顶级学府卡内基梅隆大学。涂子沛是国内大数据研究的权威人物,也是在国内做大数据科普的第一人啊。

《数据之巅》这本书一共27万字,我们分成两个部分来为你解读。

第一部分,小数据时代,给你讲述数据怎么帮助谢尔曼将军打赢南北战争,又怎么让电影《乱世佳人》收获史上最佳票房。

第二部分,大数据崛起,给你讲述911事件如何推动数据开放的步伐,以及老鼠和智慧城市是怎么扯上关系的。

好,首先我们来看第一部分,小数据时代。这个部分可以从政治和商业两个角度来看。

一是数据对政治的影响,咱们先从美国的人口普查说起啊。人口普查的数据是现代国家、现代社会的基础设施,就像水电、煤气、铁路一样重要。这份数据记录得越真实、越详细,对国家的决策者帮助就越大。美国从一开始就把人口普查写进了宪法,美国的开国者,如华盛顿和约翰·亚当斯等人认为,要想做到国家权力、人人平等,必须用数据来说话,至少要清楚国家有多少人。这在当时只能够依靠挨家挨户询问、登记的人口普查,因此,从1790年第一次人口普查开始,美国每10年进行一次人口普查,众议院的席位按各个州的人口数量来分配。

美国人口普查在政治上发挥的另一个作用,是在战争当中。美国的南北战争整整打了4年,但是很多人并不知道,是人口普查的数据最终决定了这场冲突的胜负。

18614月,南北战争正式爆发。战争开始阶段,北方接连失利,直到18649月,北方才转入战略反攻。北军从东西两线展开强大攻势,西线就是谢尔曼将军向大海进军的远征,切断了敌方东北和西南部的联系。可以说,这次远征是整个南北战争当中最大胆、最关键的一次军事行动,不带粮食、不带补给,迅速推进闪电进攻。他带着6万人从亚特兰大出发,由西向东横穿佐治亚州,一直打到大西洋边上的萨凡纳,全程400 km ,而这个过程他只用了短短五个礼拜的时间,不仅占领了萨凡纳,还把沿途所有的城镇一抢而光。

这位谢尔曼将军为何如此大胆,敢不带粮草长驱直入南方腹地呢?原因很简单,因为他手里边握着沿途所有城镇的数据。在出发之前,他每天都在作战指挥部里盯着地图,不停的向参谋询问数据:“哪个郡有多少土地、农场、粮食、小麦、鸡鸭牛羊,全年纳税什么的,通通报来。”他一边听一边算,这个乡的资源够我们一支队伍支撑几天。他所掌握的数据来源,就是最近一次全美人口普查和农业普查。佐治亚州哪个郡县物产丰富,那里就是他们重点劫掠的对象。他敢不带干粮上路,就是因为他是带着数据行军,每到一处能够补给到什么样的程度,他在心里都有数,这是做到了真正的有备无患。数据成了决定6万人生死存亡和战争胜负的关键因素。

历史上,这条从亚特兰大通往萨凡纳的道路,被称作毁灭之路。然而,在作者涂子沛看来,这同样也是一条数据之路。传奇的谢尔曼将军,他摧枯拉朽、披荆斩棘的自信不是来自别的,正是来自数据的威力。

南北战争中激起的数据浪花,逐渐形成数据商业化应用的潮流。接下来,我们就来说一说数据对商业的影响。

20世纪初的数据大潮当中,影响力最深远、最持久的当属成本收益分析。这种方法甚至演变成企业和政府的主要决策方法,并给美国社会带来了数据量化文化。

20世纪70年代,一场平托汽车风波,让数据量化进入大众的视野。20世纪60年代,为了应对日本和德国对美国小型汽车市场入侵,福特公司生产了一款紧凑型小汽车——福特平托,售价只有2000多美元,销路很好。但是平托汽车上路不久就惹上了官司。19725月,一辆平托汽车发生交通事故,起火爆炸,两名乘客一死一伤,幸存的一个青年全身大面积烧伤,他把福特公司告上法庭。这本来是一起普通的民事赔偿官司,但是一个叫做道一的记者写了一篇新闻调查爆料说,平托汽车上市至今,类似的起火事故已经发生了500多起,平托车存在严重的安全隐患。

因为大部分汽车的油箱都放在后轮轴承的上方,而平托车的油箱是放在了后轮轴承的后方,因此当汽车尾部被撞击的时候,容易造成汽油泄漏,引发爆炸。不仅如此,道一还爆料,福特公司一开始就知道这个隐患,但是没有采取任何措施,这是福特公司使用成本收益分析方法进行决策的结果。如果加固油箱,每辆车需要花费10亿美元,全公司1200多万辆车,因此增加开支1.3亿美元。加固油箱之后,可以避免180人死亡,按每条生命价值20万美元计算,再加上车辆损失,加固油箱为公司带来的总收益不到5000万美元。显然,这收益远远小于成本,因此,福特公司决定不对油箱进行加固。

一条生命价值20万美元,这个20万是怎么算出来的?生命能定价吗?福特公司成为万众责问的对象,居然为了区区10亿美元,置乘客的生命于不顾,福特公司被斥责为冷血的商业机器,被推上了舆论的风口浪尖。

福特公司为自己辩护,平托车符合国家的安全标准,在同等车型中的事故率并不是最高的。根据数据统计,在类似的车型当中排名第三,正好居中。20万美元一条人命的计算也是有根有据,这个依据就是美国国家公路交通安全管理局对生命定价的量化明细标准。但是,法庭拒绝了福特公司的申辩。这场官司结果,福特公司要给严重烧伤的青年人赔偿250万美元,同时,法庭认为福特在平托车的设计和生产过程当中纵容了不安全行为,对他们开出了350万美元的罚单。

福特公司输掉了官司,是他罪有应得。然而,应不应该给生命定价,如何给生命定价,却是人类社会必须要回答的问题。其实,量化是社会进步的表现,给生命定价也是必须的。生命无价是从道德的角度来说,但在现实中是行不通的。交通事故中,对死者的赔偿总得有个确切的数值吧。平托风波拷问了社会的道德底线,但是量化的脚步并没有停歇,它促使人们更为深入地思考量化的本质,社会必须在道德、公平与效益之间找到一个平衡点。

平托风波之后,美国社会对成本收益分析法的应用更加重视,并且加以改进规范。1980年代之后,成本收益分析法也成为美国政府最基本、最主要的决策方法。后来的里根政府和克林顿政府,都曾经颁布行政命令,要求联邦政府部门使用成本收益分析方法进行政府决策。

成本收益分析法为商业决策提供依据,抽样调查则让数据走进产品生产环节。接下来,重点说说两个传奇人物,一是美国统计界的风云人物盖洛普,另一个是一手带动日本经济腾飞的美国人戴明。

首先来说一说统计界的大师乔治·盖洛普。提起这个名字,你可能并不熟悉,但是,他做过两件特别牛的事,你或许有所耳闻。

第一件事是1936年美国大选,罗斯福和兰登竞选总统。美国有一家超大型的民意调查机构,调查了240万个美国人,可谓是兴师动众,给出的最终结论是兰登会胜出。而盖洛普那个时候还是籍籍无名,但他运用科学的抽样统计方法,只抽样调查了5000个人,就准确的预测罗斯福一定会当选。5000个样本打败了240万个样本,盖洛普调查的样本数量只是对手的2‰,真是让所有人都是大跌眼镜,也让盖洛普名震天下。其实他用的方法就是科学抽样,根据选民的人口特点,比方说老中青人口比例、士农工商各个行业的人口比例,来合理的分配这5000个样本的份额,最后再针对不同的人群,确定哪种人应该用哪种方式来访问,比方说电话访问、邮件访问,还是面对面的街头访问。因为样本比例更合理,访问方式更精准,所以能够以小见大,精准的预测大选的结果。

有了这次政治预测的成功,他并没有满足,而是把触角伸到了好莱坞的电影产业。接下来他做的这件事儿,堪称统计学界教科书级别的案例。在电影《乱世佳人》开机之前,他就成功预测了电影的最终票房。

我们先说结果,盖洛普预测《乱世佳人》的观众会达到5650万人。当时所有人都觉得他在痴人说梦,美国那个时候总共才1.3亿的人口,怎么可能有半个国家的人都来为同一部电影买票呢?结果怎么样,最后卖出去的电影票是5997万张,盖洛普的预测误差不到6%。这样神一般的预测,他是怎么做到的呢?

首先,在购买影视版权之前,盖洛普就通过调查得出了这样的数据,虽然原著小说《飘》当时只卖了几万册,但是通过人们的争相传阅,小说正在全国风靡,一共有1400万人读过这本书,这用今天的话来说,就是超级 IP ,所以他对影片的票房信心十足。紧接着等到了投拍的时候,制片方内部又是出现了很多争议,这电影应该是拍一集还是拍上下集,片长多少时间比较合适,拍黑白的还是拍彩色的,选角呢,选英国女演员费雯丽来演好不好,宣传海报应该凸显什么样的内容,他们自己解决不了,把这些难题通通的甩给了盖洛普。他在全国深入调查了两年,最终拿出了结论,分成上下两集没有问题,时长要控制在238分钟,60%的人想看彩色电影,支持费雯丽主演的人是反对者的两倍多,海报风格要模仿原书的封面圈来小说的死忠粉打响第一炮。

制片方几乎是全部采纳了这些意见,盖洛普进一步给出了预测,5650万观众。到了1939年底电影上线,果不其然,全国影院都爆满了。发行方没有因此而松懈,他们的每一波营销公示都听取盖洛普的最新调查意见,比如某一轮放映的时候,年轻观众居多,那么海报里就撤掉南北战争的历史背景,主打爱情牌,换上男女离别缠绵不舍的画面。所有这些基于数据的分析和决策,都给这部电影神作推波助澜,让他达到了登峰造极的一个地步。时至今日,如果剔除掉通货膨胀的因素,《乱世佳人》就是人类历史上票房最高的电影。

盖洛普的神预测

甚至还启发了近几年一部现象级美剧的制作过程,它就是《纸牌屋》。制片方美国奈飞公司利用数据分析发现,喜欢看1990年英国版《纸牌屋》的观众,同样喜欢鬼才导演大卫·芬奇,同时他们还是奥斯卡影帝凯文·史派西的忠实影迷。

有了强大的数据分析支持,奈飞公司把原版《纸牌屋》、凯文·史派西、大卫·芬奇的粉丝整合在了一起,投拍了新版《纸牌屋》,最后一炮而红。

在盖洛普之后,另一个美国人接过了数据抽样技术的大旗,远渡重洋来到日本,带领日本战后工业经济迅速腾飞。这个墙内开花墙外香的传奇人物,就是被称为质量管理之父的爱德华·兹·戴明。

戴明本是物理学博士,由于参与人口普查,掌握了抽样技术和统计方法。后来他又将抽样技术和统计方法应用于企业质量管理,成果显著。

二战以后,美国的驻日盟军总司令麦克阿瑟邀请戴明到日本考察,在日本推广他的质量控制方法。那时的日本制造,在国际上是山寨、质量差的代名词,很多企业家对怎么把产品做精做好完全没有概念。

戴明对企业家们说:5年让日本产品占领国际市场。”大家都瞠目结舌,不敢相信。

戴明在日本各地传授他的质量控制方法,深入企业进行具体指导。戴明认为,85%以上的质量问题源于管理不当所导致的质量偏差,实施有效的质量控制,关键就是掌握数据。

戴明的到来,让数据和图表像花朵一样,在日本的企业、工厂当中随处绽放。他对产品质量的控制方法,有几个简单通俗的案例,其中之一是他带来了偏差控制法。

比方说,一张毛毯标注的含毛量是50%,那么在一张毛毯上随机剪下来十个直径一厘米的圆,进行抽样检测,49%51%的含毛量都算合格,有一处在这个范围之外,就记为整张毛毯不合格。

再比如有一家日本的钢铁公司,它炼钢用的原始矿砂都是通过船运进口的。在过去,这矿砂运到码头检测矿砂的含铁量,都是在船上随便挖几铲子就拿去测了,而这几铲子挖到的都是表层的矿砂,并不能够代表全部。

在戴明的指导下,他们设计了一套新的抽样方法,从船上往陆地上卸沙,要经过传送带,在传送带运输过程当中随机地叫停,再从上面来抽取样品检测,这样就能够保证整船的矿砂都有可能成为样本。这是随机抽取样本数据的思想。那后来这种方法,经过不断改进,成了世界范围内大宗物资抽样的国际标准。

听到这儿,你可能会觉得,戴明传授给日本人的质量控制法好像没有什么神奇的,都是今天大型工厂惯用的手段。可是在当时,对于战后百废待兴的日本来说,怎样控制好工业产品的质量,振兴国内经济和出口贸易,人们的头脑当中完全没有概念和相应的具体措施。是戴明成熟完善的质量管理方法,为日本企业指明了前进的方向。

无论是盖洛普通过调查分析数据,对票房做出的准确预测,还是戴明把数据引入质量控制体系,这些都是商业数据化的力量。在小数据时代,人类对数据的应用创造了无数的奇迹,但是由于收集的数据不全面,处理数据的能力也有限,数据应用仍然受到很大的限制。

进入大数据时代,这一切发生了根本性的改变。传统的小数据源于测量,而大数据源于记录。这种记录的形式可以使文本、图片,还有音频、视频等等。从这个角度来说,大数据可以理解为传统的小数据加上现代的大记录。

第二部分,我们就来为你讲述大数据崛起。这一部分呢,会回答两个问题:大数据从何而来,以及大数据会把人类带向何方。

首先,大数据从何而来呢?早在上世纪80年代,就有美国科学家预言,计算机发明以后会经历三个阶段:主机、个人电脑以及微小的计算设备,或者说可穿戴设备阶段。传感器会贴着人进行跟踪记录,每一个值得记录的数据都会被微型的传感器记录并上传。

德国有一家足球俱乐部,把传感器装到了足球和球员的衣服上、护膝上,一场90分钟的比赛下来,系统能够收集6000万条记录,教练可以用这些数据来分析,并且制定新的训练方案。

在生活当中,很多人佩戴的智能手环、汽车上的传感器、马路上的摄像头,都在随时随地的采集数据。人类开始有能力大规模地进入整个物理世界的状态,万物皆数成为大数据时代的显著特征。

大数据时代的另一个显著特征,就是数据开放或共享。当时间的脚步迈入21世纪,很多人还记得2001年发生在美国的911事件,可是很多人不知道的是,这场悲剧与数据的开放也有着密不可分的关系。

事件发生以后很长一段时间,居然谁都说不清当时双子塔里边究竟有多少白天在里边上班的总人数,没有确切的数据。直到事件发生的100天之后,美国最大的报纸《今日美国》根据统计出的死亡人数估计出,一共应该有1万到14000人在双子塔上班,而这已经是当时公认最权威的数字了。但是这和2005年最终报告当中的17500人,还是有着很大的误差。

这次悲剧成了国家的统计和普查部门的数据之痛。其实早在911事件之前,联邦政府就认识到统计一个地区的白日人口的重要意义,那这所谓的白日人口,就是白天在这里上班的人口。但是由于涉及个人隐私、数据分散和各州法律体系不同等原因,这个项目一直没有进展。

911悲剧有力地推动了这个项目的进程,又过了5年,到了2006年,美国政府做成了一份实时的、动态的人口信息地图,起名叫做LEHD项目,是关于美国公民工作单位和家庭住址的动态大数据系统。每个地方白天有多少人工作,晚上有多少人居住,他们的工作信息、社保记录、个人基本信息得到全面的整合,抹去其中的个人隐私,只统计宏观的动态数据。

更重要的是,美国政府决定把这个大数据系统免费的开放给全社会使用。这不仅为政府抢险救灾、处置突发事件奠定了基础,也是为社会组织、企业或者是公民个人的生产生活提供了便利。

LEHD项目实现过程,是美国数据开放历史的一个缩影,充满艰辛曲折。但是要顺应大数据时代的潮流和要求,数据开放是一个国家必然要经历的阵痛,只有构建起大数据的基础,才能够走上数据之巅。

诶,那么什么是数据之巅呢?大数据时代将把人类带向何方?作者在这里解释了书名《数据之巅》的真正含义。

请你想象,一座金字塔一共分为四层,最底层的是数据,它是信息的载体。金字塔的第二层呢,是信息,它是有背景含义的数据,是知识的来源。再往上第三层是知识,它是呈现出规律的信息,使人们获得洞见的基础。而最顶层,也就是数据之巅,是智能,是机器能够分析大量数据,获得知识,自己去解决任务。

换句话说,数据之巅,数据金字塔的顶部,就是我们今天所说的人工智能。过去都是人类自己总结规律,学习知识,完成工作任务,这是人类的智能。相比于其他动物,人类的智能就在于可以掌握知识,应用知识,实现更好的生活。谢尔曼将军就是掌握智能的人,他综合了各种数据、信息以及知识,做出了不带粮草、发动闪电战的军事决策。

而现在,机器可以像人一样自动学习知识、应用知识、处理任务,帮我们实现更好的生活。比方说无人驾驶汽车,就是人工智能的一个典型应用。无人驾驶汽车行驶时,它通过电子设备感知周围环境状况,收集数据,然后对数据进行分析,快速判断自己所处的位置和状态,并且做出反应。自动控制系统还拥有自学能力,通过一次次测试自己积累经验,实现无人驾驶。

人工智能应用有着无限的空间和潜力,利用人工智能最节约也是最高效的方式,是建设智慧城市。怎么建设智慧城市,应该用什么样的理念作为指导,下面的老鼠指数的故事可能会给我们启发。

老鼠的多少一定程度上能够反映出一个城市的卫生状况。2004年,纽约市卫生厅开放了全市餐厅历次检查和受理投诉的数据,有人就利用这些数据做了一个应用程序,放在网上供大家使用,叫做地区老鼠指数。

他把卫生厅开放的数据当中关于老鼠出没的数据进行整理,以邮编为地域单位,用可视化的形式展现在地图上,颜色越深的地方,表明鼠患越严重。他还列出了卫生条件最差的餐馆,点击地图当中的区域,用户可以查阅纽约每个地区的老鼠是多是少,了解到当地的卫生状况。

这个老鼠指数的发明,实际上是基于数据开放的创新。政府为公众搭建平台,向公众开放数据,让公众参与和解决问题,这就是所谓的众包、众志和众创,利用大众的能量来建设智慧城市。

好了,说到这儿,230年纷繁复杂的数据发展史就说的差不多了。最后来谈一谈应该怎么来看待这段历史,大数据对于人类的生活有着怎么样的意义。

我们可以类比一下15世纪的古腾堡,他是西方活字印刷术的发明人。在古腾堡发明活字印刷之前,手抄本的图书是稀有而珍贵的,知识的传播受到重重的限制。从他开始,掀起了一场知识再生产的宏伟革命。在他之后,人们用成本低廉的大规模印刷技术,把人类历史上所有出现过的知识重新生产了一遍。

其实大数据的历史也是一样,一部大数据的发展史,就是把人类社会活动所产生的信息重新生产、上传、加工、共享的一部历史。过去你在街上乘坐出租车,你的时间、地点、路线,还有你对司机的评价,很多信息都丢失了,但是今天用手机软件打车,这些数据都是得到了妥善的记录和处理。

过去你逛商场、买东西,除了增加营业额,你没有留下任何痕迹,但是网上购物所记录的数据信息,包含了你光顾每一件商品的细节。当人类的每一个行为都转化为数据,就能够为全社会各个领域的进步提供真实而肥沃的土壤。

大数据不是什么行走在云端、高高在上的黑科技,大数据就是我们每一个人可以被实时记录的生活本身。

好,《数据之巅》这本书就为你解读到这。



"感谢喜欢,赞赏支持是对我的鼓励。"

微信收款码   微信收款码

很赞哦! (0)

发表评论

本栏推荐