计世网

疫情地图,为什么约翰霍普金斯大学动态图成流量担当
作者:王雪莹 | 来源:科普中央厨房 | 北京科技报
2020-04-16
由美国约翰霍普金森大学系统科学与工程中心制作的COVID-19动态地图,因其上线早、更新快、数据准、信息全等多种优势,迅速获得了全球关注。

 

此次新冠肺炎爆发,全球诸多机构都推出了各自不同的数据追踪地图,为什么就约翰霍普金斯大学动态图“火”了呢?

自新冠肺炎在全球爆发以来,每日的疫情数据一直是大家关注的焦点。为此,全球多家机构也陆续推出了多种不同类型的疫情数据汇总平台,不论是世卫组织、各大学及医院,还是微软、谷歌等科技企业,其所提供的疫情动态地图都为广大公众和全球的研究人员提供了重要的资讯。

期间,由美国约翰霍普金森大学(Johns Hopkins University 以下简称JHU)系统科学与工程中心(CSSE)制作的COVID-19动态地图,因其上线早、更新快、数据准、信息全等多种优势,迅速获得了全球关注。

“流量担当”的疫情地图

我们为什么需要一个准确、快速、全面的疫情动态地图?

“及时了解全球真实的确诊人数,对于我们更好地了解这种疾病,比如何时会达到峰值、何时会开始下降很有帮助,还能帮助我们更好地了解什么时候可以复工”,芝加哥拉什大学医学中心传染病教授、副医务官Bala Hota博士在接受美国CNN采访时曾如是说。而这,也恰是JHU动态地图如今能受到如此追捧的重要原因。

从技术角度来看,JHU动态地图的核心并不复杂——使用美国Esri公司的ArcGIS在线交互地图技术,将数学建模计算汇总出的全球新冠疫情数据,以更直观、更简单易懂的方式可视化呈现。

作为一切的核心,JHU动态地图的数据源覆盖面非常广,包含了世卫组织、美国疾控中心、欧洲疾控中心、中国疾控中心以及全球其它媒体和健康部门公布的数据。这些数据在被收集和汇总后,会被上传至GitHub平台,再由JHU动态地图团队导入ArcGIS。截至目前,该疫情地图已经实现了对数据的全自动在线抓取和汇总。

据国际知名科学期刊《自然》称,目前JHU动态地图在GitHub平台已收藏基础数据近20000次,提交了近1700次问题反馈,并对数据提出了超350次的修改申请。由于数据抓取及时、更新频次高,JHU动态地图在发现各地区首例病例方面特别敏锐。对于这一点,国际权威医学杂志《柳叶刀》在此前就曾发文称,研究人员通过对比发现,JHU动态地图的更新速度远快于世卫组织,仅次于澳大利亚、香港和意大利。

据悉,自1月22日正式上线至今,JHU动态地图的网页点击量单日峰值曾突破10亿次,是同类地图中当之无愧的“流量担当”。

▲JHU新冠病毒研究中心给出的网页实时流量监测。(图源:JHU新冠病毒研究中心)

为什么“火”的是它?

事实上,早在搭建JHU动态地图之前,该项目总负责人、CSSE联合负责人Lauren Gardner博士就曾带领自己的学生做过类似的数据平台,重点监测麻疹之类的传染病爆发。那么此次新冠肺炎爆发,全球诸多机构也都推出了各自不同的数据追踪地图,凭什么就JHU动态地图“火”了呢?

对于这个问题,Lauren Gardner博士认为“上线早”是JHU动态地图能够在众多同类产品中脱颖而出的重要原因之一。

“我们是关注(COVID-19疫情发展)最久的(平台),早在1月中国刚爆发的时候就开始了”,作为一位曾为麻疹和寨卡病毒传染病空间建模的学者,Lauren Gardner博士如是说。但与此同时她也坦言,其团队此次之所以能如此快速地做出响应,更要归功于自己的学生——董恩盛,一位来自中国的博士生。

“他个人对(新冠疫情)非常关注”,Lauren Gardner博士说:“系统做好的第二天,我就把它分享在了Twitter上,然后它立刻就火了”。

▲COVID-19动态地图项目的总负责人、CSSE联合负责人Lauren Gardner博士。(图源:JHU)

除了关注得早,JHU动态地图的另一大突出特点就是数据更准、更快。在疫情早期,新冠病例的增长还主要集中在中国国内,Lauren Gardner博士及其团队的数据采集和汇总的主要来源是丁香园的数据。此后,随着疫情在全球范围的不断发展,包括世卫组织、美国疾控中心、Worldometers.info网站、中国疾控中心以及多种在线新闻服务平台的数据也被他们纳入了进来。

“有上百万的眼睛在时刻关注着我们,所以就算我们遗漏了什么,大家也会立刻发现,然后快速联系我们”,Lauren Gardner博士说。

在她看来,是众人的共同参与成就了现在的JHU动态地图:“我们收到了上千封的邮件,大家会说‘嘿,有两例新增你们没发现’,而且我们现在也有一个异常检测的提示系统,能帮我们自动收集数据”。

尽管如此,Lauren Gardner博士和她的团队还面临着诸多挑战,比如,何防止他们自己汇总而来的数据在几经中转后,反过来又被当作新增病例被纳入统计,最后导致数据出现重复统计?

“为了获取美国的最新数据,我们一直密切着一个叫1point3Acres的资讯汇总平台。我们从它提取美国数据,他们则从我们这里获取全球数据,所以我们必须非常小心,(确保)我们只援引它的国家(美国)数据。”

地图背后的中国身影

正如Lauren Gardner博士多次所提,此次JHU动态地图的成功离不开自己的学生——董恩盛,但很少有人能想到,这样一个如今受到全球瞩目的地图,从无到有只花了董恩盛不半天的时间。

“当时我和导师Lauren Gardner博士在讨论新学期做点儿什么新的项目,然后我就说,为什么不弄一个可以追踪新冠疫情的数据面板呢?”,在回顾自己当初为什么要做这个地图,董恩盛笑着说:“我懂中文,还会说普通话,收集数据的效率快也更准”。

事实上,早在今年1月国内疫情刚爆发之时,董恩盛就开始酝酿“做点儿什么”的想法了。他坦言,虽然彼时身在美国,但国内疫情的发展使他非常担心自己的山西老家,更担心生活在那里的家人,“这是我想要做这个数据仪表的最初原因”。

当自己的提议得到了导师的认可,董恩盛决定说干就干,只用了7、8个小时就建好了一个简易的动态地图数据面板。此后,和导师Lauren Gardner博士一同优化后,第二天,初版的JHU动态地图就这样上线了——可以说,彼时几乎没人能想到,它在此后会成为世界了解新冠疫情全球发展的重要窗口。

在疫情初期(1月22日-31日),所有的数据收集和处理都是大家手动进行,每天早晚分别进行两次汇总与更新。在人手方面,除了董恩盛,团队里还迎来了另一位中国留学生杜鸿儒,他主要负责的工作是为自动更新写代码和核对数据。

“最大的困难就是源数据格式不同、语言不同,我们得把数据汇总、重组、调整成能适配我们系统的格式,再将这些数据上传”,杜鸿儒说。

▲董恩盛(左边)和杜鸿儒(右边)。(图源:CGTN)

然而,尽管人手增加到了6个人,但他们的压力却没能减小。相反,随着疫情的快速发展,动态地图对数据的总量、细化数据的计算压力……这些都导致大家的工作量急剧上升。此刻他们意识到,手动查询与录入已经无法满足现阶段的需求——2月1日,JHU动态地图终于升级成了半自动更新。

“用地图的人越来越多,这就要求我们更得对数据的准确性负责……而且随着访问量的增长,我们的服务器也崩了好多次……这真的让我特别紧张”,董恩盛说:“但是好在后来我们得到了帮助,升级了服务器,现在我们能比较好地应付(大量的访问量)了”。

据了解,这个6人小团队最初能依赖的只有亚马逊的云计算服务器。尔后,为了更好地帮助Lauren Gardner博士和学生的工作需求,JHU校方也开始加入其中,为这个项目提供更多的内部支持。截至目前,包括JHU应用物理实验室、Esri公司在内的更多专业机构都加入了技术支援之列。

“他们帮助我们确保网站不会崩溃,因为数小时之内(地图的)点击量就能高达10亿次”,Lauren Gardner博士说:“为此,我们也重新设计了好几次这个框架,把这些服务器更新了好多次”。

(图注:4月10日JHU新冠疫情动态地图的用户界面。图源:JHU)

一切还远远不够

Lauren Gardner博士认为,虽然现在有了更多的专业技术支持,还有了更庞大的志愿者团队作为后援,但鉴于新冠疫情的发展,未来依旧是任重道远。

“就我们目前要做的事儿来看,现在团队的人手还是太少了”,她说。

在她看来,如果不同地区的健康权威机构都能以一种更易外界援引数据的方式,持续不断地更新自己的疫情数据,动态地图的作用或能变得更好。

据悉,Lauren Gardner博士和自己的团队已经搁置了实验室的所有其它工作,以此来确保能够全身心地做好疫情地图。谈及未来,他们表示将用一整年的时间持续追踪疫情的发展。与此同时,鉴于多项都已经实现了全自动更新,他们也将花更多的时间进行不同种类的研究。

“现在,我几乎九成的兴趣和工作都回到了对这种疾病的数学建模上”, Lauren Gardner博士说:“我们正在对美国的疫情做实时的风险评估,希望到时候,我们能通过将数据反馈给上层决策者,提醒他们‘这些县明天要额外关注’。我们能做到这一点,我们也应该这样做”。

责任编辑:刘沙