《数据之巅(2)》|喜马讲书(大数据如何重构人类生活?)

《数据之巅(2)》|喜马讲书(大数据如何重构人类生活?)

00:00
10:01

《数据之巅》的作者涂子沛,是阿里巴巴集团的前任副总裁,著名的信息管理专家,毕业于计算机专业的顶级学府——卡内基梅隆大学。涂子沛是国内大数据研究的权威人物,也是在国内做大数据科普的第一人。 

 

 

第一部分,小数据时代。

 

人口普查的数据,是现代国家、现代社会的基础设施,这份数据记录得越真实、越详细,对国家的决策者帮助就越大。

 

美国从一开始,就把人口普查写进了宪法。从1790年第一次人口普查开始,美国每十年进行一次人口普查,众议院的席位按各个州人口数量来分配。

 

美国人口普查在政治上发挥的另一个作用,是在战争当中。美国的南北战争整整打了4年,是人口普查的数据,最终决定了这场冲突的胜负。

 

1861年4月,南北战争正式爆发。战争开始阶段,北方接连失利,直到1864年9月,北方才转入战略反攻。北军从东、西两线展开强大攻势。西线就是谢尔曼将军“向大海进军”的远征,切断了敌方东北和西南部的联系。可以说,这次远征是整个南北战争中最大胆、最关键的一次军事行动:不带粮食、不带补给,迅速推进,闪电进攻。

 

因为谢尔曼将军手里握着沿途所有城镇的数据,每到一处能补给到什么程度,他都能心里有数,做到真正的有备无患。数据成了决定6万人生死存亡和战争胜负的关键因素。

 

南北战争中激起的数据浪花,逐渐形成数据商业化应用的潮流。

 

在20世纪初的数据大潮中,影响力最深远、最持久的,当属“成本收益分析”,这种方法甚至演变成企业和政府的主要决策方法,并给美国社会带来了数据量化文化。20世纪70年代的一场平托汽车风波,让数据量化进入大众的视野。

 

20世纪60年代,为了应对日本和德国对美国小型汽车市场入侵,福特公司生产的一款紧凑型的小车福特平托。但平托汽车上路不久,就频频发生事故。

 

记者爆料,福特公司一开始就知道这个隐患,但没有采取任何措施。这是福特公司使用成本收益分析方法进行决策的结果,按照每条生命20万美元计算,加固油箱的收益远远小于成本,因此福特公司决定不对油箱进行加固。

 

平托风波拷问了社会的道德底线,但量化的脚步并没有停歇,它促使人们更深入地思考量化的本质,社会必须在道德、公平与效益之间找到一个平衡点。

 

成本收益分析法为商业决策提供依据,抽样调查则让数据走进产品生产环节。

 

1936年美国大选,盖洛普运用科学的抽样统计方法,只抽样调查了5000个人,就准确预测罗斯福一定会当选。5000个样本打败了240万个样本,盖洛普调查的样本数量只是对手的千分之二,真是让所有人大跌眼镜,也让盖洛普名震天下。

 

他用的方法就是“科学抽样”,根据选民的人口特点来合理分配这5000个样本的份额,最后再针对不同的人群,确定哪种人应该用哪种方式来访问。因为样本比例更合理,访问方式更精准,所以能够以小见大,精准预测大选的结果。

 

此外,盖洛普还成功预测了电影《乱世佳人》的最终票房。

 

在购买影视版权之前,盖洛普就通过调查发现,虽然原著小说《飘》当时只卖了几万册,但是通过人们的争相传阅,小说正在全国风靡,一共有1400万人读过这本书。

 

盖洛普在全国深入调查了2年,最后拿出了结论,包括电影时长,彩色还是黑白,主演是谁,封面设计成什么样。制片方几乎全部采纳了这些意见,盖洛普进一步给出了预测:5650万观众。到了1939年底电影上线,果不其然,全国影院都爆满了。

 

在盖洛普之后,爱德华兹•戴明接过了“数据抽样技术”的大旗,远渡重洋来到日本,带领日本战后工业经济迅速腾飞。

 

戴明认为,85%以上的质量问题源于管理不当导致的质量偏差。实施有效的质量控制,关键就是掌握数据。

 

他对产品质量的控制方法,有几个简单通俗的案例:其中之一,是他带来了偏差控制法,比方说一张毛毯,标注的含毛量是50%,那么在一张毛毯上随机剪下来10个直径1厘米的圆形,进行抽样检测,49%到51%的含毛量都算合格,有一处在这个范围之外就记为整张毛毯不合格。

 

再比如,有一家日本的钢铁公司,在戴明的指导下,他们设计了一套新的抽样方法:从船上往陆地上卸砂要经过传送带,在传送带运输过程中随机叫停,再从上面抽取样品检测,这样就能保证整船的矿砂都有可能成为样本。这是随机抽取样本数据的思想,后来这种方法经过不断改进,成了世界范围内大宗物资抽样的国际标准。

 

 

第二部分,大数据崛起。

 

在生活中,很多人佩戴的智能手环、汽车上的传感器、马路上的摄像头,都在随时随地采集数据。人类开始有能力大规模地记录整个物理世界的状态,“万物皆数”成为大数据时代的显著特征。

 

大数据时代的另一个显著特征,就是数据开放或共享。911事件发生以后很长一段时间,居然谁都说不清楚,当时双子塔里面究竟有多少人。这次悲剧成了国家的统计和普查部门的数据之痛。其实,早在911事件之前,联邦政府就认识到统计一个地区的“白日人口”的重要意义,就是白天在这里上班的人口,但由于涉及个人隐私、数据分散和各州法律体系不同等原因,这个项目一直没有进展。911悲剧有力地推动了这个项目的进程。

 

2006年,美国政府做成了一份实时的、动态的人口信息地图,起名叫LEHD项目,是关于美国公民工作单位和家庭住址的动态大数据系统。这个大数据系统免费地开放给全社会使用,这不仅为政府抢险救灾、处置突发事件奠定了基础,也为社会组织、企业或公民个人的生产生活提供了便利。

 

 

想象一座金字塔,一共分为四层:最底层的是数据,它是信息的载体;金字塔的第二层是信息,它是有背景含义的数据,是知识的来源;再往上,第三层是知识,它是呈现出规律的信息,是人们获得洞见的基础;而最顶层,也就是数据之巅,是智能,是机器能够分析大量数据,获得知识,自己去解决任务。

 

过去,都是人类自己总结规律、学习知识、完成工作任务,这是人类的智能。相比于其他动物,人类的智能就在于可以掌握知识、应用知识,实现更好的生活。谢尔曼将军就是掌握智能的人,他综合了各种数据、信息和知识,做出了“不带粮草,发动闪电战”的军事决策。

 

而现在,机器可以像人一样,自动学习知识,应用知识,处理任务,帮我们实现更好的生活。

 

一部大数据的发展史,就是把人类社会活动所产生的信息,重新生产、上传、加工、共享的一部历史。 当人类的每一个行为都转化为数据,就能为全社会各个领域的进步提供真实而肥沃的土壤。大数据不是什么行走在云端、高高在上的黑科技。大数据就是我们每一个人,可以被实时记录的生活本身。




解读 | 若风,资深图书出版人,经管社科类畅销书策划编辑。

播音 | 张煜

策划编辑 | 陈艳

音频编辑 | 陈子夫


以上内容来自专辑
用户评论
  • 奔跑的马蹄印

    个人罚款交九十亿,也是一本商业经典。美国人的圈钱狂欢。