同学们好,我是曾建川,欢迎和我一同继续拓展。
我在前面的课程里,讲到了“数据爆炸”,并且,我们也一起回到了历史上的那一次“数据爆炸”,记得吗,因为古登堡制造出印刷机,过去依靠抄写才能产生的文字书籍,现在能够快速地印刷而出,书籍的价格骤降。过去是富人与贵族才能拥有书籍,而印刷机出现后,普通人也能从书籍中获取知识。信息与数据因此在人群中蔓延、传播,如同“爆炸”一般快速。
听起来,历史上的那一次“数据爆炸”,印刷机起到了决定性的作用,这是“技术带来变革”的典型范例,就如同蒸汽机技术引发了工业革命一样。
现在我要提一个问题,如果说历史上的那一次“数据爆炸”,以及由此带来的整体变革,是由像印刷机这样的机器、或者说技术引发的。那么今日世界的数据爆炸,以及由此正在发生的变革,是否也能归结到某一类机器、或者说技术的身上呢?
请同学们带着这样一个问题,继续往下听吧。
在我坐在书桌旁,写下这一课的文字时,许多人都和我一样,正待在家里。孩子们还没有去学校上课、大人们也还在尽量选择居家办公。新冠疫情让我们以一种全民隔离的状态迎接了2020年。人们日常生活中的许多习惯与情形都改变了,城市和乡村都呈现出相对的静态。
然而网络是异常繁忙的,各类大数据在各种终端飞速传递,隔离在家的人们依靠网络上的数据获得信息、指导自己的行为。同学们应该都非常熟悉这样的情形。而我要说的是,一些正在对大数据进行高精度分析,以求更好地把它们利用起来的人,在他们的眼里,那些繁忙活跃在网络空间的数据,可不仅仅是能提供一些日常信息而已,它们的用处太大了。
大数据,能对疫情的控制有帮助吗?我这么问,你可能觉得有些奇怪,这还用问吗?当然有帮助啊。今天那些正在对大数据进行高精度分析的人,不就在致力于这样的工作吗?
然而,“对大数据进行分析能有效控制疫情”这样的认知,可不是早已有之的。就在十一年前的2009年,美国爆发世界性甲型流感,当谷歌公司的工程师发表论文,认为利用谷歌保存的搜索记录数据,可以预测流感的传播时,所有人都为之震惊。
要知道,美国一向对流感是保持高度紧张的,听过《世界那么大》第二季的同学应该有印象,从1918年那次硬生生结束了第一次世界大战的大流感,到1976年爆发猪流感,经历过多次流感大侵袭的美国,在预防与控制流感方面,一直相当积极。
2009年4月15日,美国加州一名十岁的小女孩感染了流感,她的父母没有预料到,情况远比想象的严重。医生专门前来采集了小女孩的病毒样本,他们显然对这病毒感到陌生和棘手,样本被送到了美国疾病控制和预防中心CDC。
CDC对小女孩的病毒样本进行了基因检测,他们发现,这是两种猪病毒基因重组后产生的新型病毒。
两天后的4月17日,CDC又从另外一名加州儿童的病毒样本中发现了相同的毒株。值得警惕的是,两名儿童虽然都在加州,却相距130英里,从未有过实际的接触。
十天后的4月27日,欧洲国家西班牙出现了首例确诊;紧接着4月28日,加拿大也出现了首例确诊。到4月29日,世界卫生组织罕见地将这次流感级别,从刚刚确立的3级,提高到了5级。全世界都因此而紧张起来了。
如何应对这来势汹汹的新型病毒呢?想要迅速制备出疫苗,显然是不可能的,对于公共卫生专家来说,最迫在眉睫的,就是想办法减缓病毒传播的速度。那么,如何做到这一点呢?
你很可能已经联想到了,我们中国眼下正在对新冠病毒采取的防控措施。我们采用了一切手段,对病毒的可能位置进行追踪定位,判断和预测它的传播方向与范围。没错,在十一年前的美国,公共卫生专家也想做到这一切,他们试图知道流感出现在哪里,到达过哪里,和将要去往哪里。然而他们显然无法做到像今天中国所做到的那样,让我们来看看,当年的美国,采用的是哪些做法吧。
事实上,当时几乎所有国家的做法都差不多。国家的疾控中心要求,全国各所医院在发现新型流感病例时,即刻上报信息。那两名加州儿童病例的信息,就是这样到达疾控中心的。然而这中间存在大量延迟,你想想看,谁会稍有不适就往医院跑呢?感染者往往是捱到很难过、受不了的时候才会去医院;而医院也需要时间来判断,这个病例感染的病毒是无法分类的新病毒;等到医院汇总好病毒样本,提交给疾控中心,大量的时间就这样一段一段地延迟了。当时有人做过一般性统计,一个流感病例从发病、到被疾控中心识别和通告,最起码有一到两周的延迟,这还没将疾控中心每周只做一次数据汇总的习惯考虑进去。你是不是都已经听得着急万分了?是啊,对于飞速传播的传染病来说,每一刻的延迟,都意味着更多人感染,更多的生命将因此受到威胁。
就这样,当年的美国,足足花了六个月才宣布全国进入紧急状态;而甲型H1N1流感的相关数据,直到三年后才由美国疾病控制和预防中心更新出最终的统计,那一年,甲流的死亡人数接近30万人。
你可能感到奇怪,谷歌公司不是在分析数据,帮忙预测病毒的传播吗?的确如此,然而很难回溯,谷歌的预测工作,曾经在多大程度上被采纳?抑或,那是不是只被用于印证了官方的数据呢?
不管怎么样,谷歌当年所做的大数据分析,简单说起来,大约是这样一种思路。疑似感染的那些人,即便他们不愿往医院跑,但上网搜索这么方便的事,是一般都会做的。那么,一大批例如“治疗咳嗽和发热的药物”等等,这样的搜索词条,就会出现在谷歌的数据库里,它们将被技术人员用到一些特意开发的数学模型里,通过分析特定搜索词条的出现频率,以及它们与流感在时空传播之间的联系,就能实现预测。
现在,我要回到与今天的新冠疫情相关的大数据分析工作中。今日中国,几乎每个人的手里都有一个移动终端——也就是手机,这为分析工作提供了最全面的数据积累。而最直接的运用当然就是,疫情最早出现在武汉,正值春节,离开武汉的人们可能对外省带来传播风险。那么,如果掌握和分析武汉对外输出人口的流动数据,当然就能科学地预测病毒在武汉以外的传播情况。
说到这里,今天的拓展课堂就要结束了。回到我在课堂的一开始提出的那个问题:今日世界的数据爆炸,以及由此正在发生的变革,是否能归结到某一类机器、或者说技术的身上?就像十五世纪的欧洲,印刷机的出现引发了社会变革一样呢?
正在思考这个问题的你,联想到什么了吗?想一想我们前面讲过的莫里,他从故纸堆里翻出那些早已被遗弃的信息,把它们变成了有用的远洋导航图;再想一想谷歌的工程师,他们把别人的搜索记录用了起来,然后预测了流感病毒的传播情况;以及我们今天用以监控疫情的移动数据大分析。你能从这些故事里,找出怎样的相关性呢?
是啊,许多被认为毫无意义的数据信息,却很可能蕴含着闪亮的价值,当有人意识到数据的价值,并且用聪明的、适当的方式把它们利用起来,变革,就有可能发生了啊。
现在你知道了吗,真正的变革,不在于分析数据的机器,而在于数据本身,和我们如何运用数据。
还没有评论,快来发表第一个评论!