使用社交账号登陆

当前位置: 主页 > 前沿 > 信息 • 能源

华人团队构建全球疫情实时追踪系统 已被CDC、JHU使用

时间: 2020年06月09日 | 作者: 陈娉莹、沈开 | 来源: 科研圈
约翰霍普金斯大学疫情追踪平台的主要引用来源,和美国疾控中心使用的参考数据来源之一,是一个由在美留学生、华人为主的志愿者团队搭建的新冠疫情追踪平台——CovidNet。


目前该数据库已有超过 2.25 亿访问量,并且被 522 个机构或组织使用。相关预印本近日在 arXiv 平台发布。


image.png


撰文 陈娉莹、沈开

编辑 戚译引


在新冠肺炎肆虐全球之际,一群在美留学生、华人为主的志愿者团队在北美华人网站“一亩三分地”的组织下,于 2020 年 1 月底开始汇总搜集北美实时疫情信息,整合全球数据,搭建了目前全世界最实时、广泛、地理区分度最细的新冠疫情追踪平台——“一亩三分地”新型冠状病毒世界疫情动态追踪平台 CovidNet(网址:https://coronavirus.1point3acres.com/ ),受到国际用户一致好评。如今,CovidNet 已成为约翰霍普金斯大学(JHU)疫情追踪平台和维基百科新冠全球大流行页面的北美数据主要引用来源,并成为美国疾控中心(CDC)使用参考数据来源之一。目前该数据库已有超过 2.25 亿访问量,并且被 522 个组织或机构使用。相关预印本已在 arXiv 发布。


image.png


“一亩三分地(1point3acres)”是汇集留学、就业、移民信息的北美华人论坛。CovidNet 的工程师团队成员都属于“一亩三分地”的全职工作人员;负责数据核查的志愿者们通过网络招募加入,主要是华人群体或北美留学生,也有非华人成员,分散在不同的地方,通过网络联系。CovidNet 创办人郭昱同时也是“一亩三分地”的创始人之一,目前在旧金山 Uber 公司担任自动驾驶机器学习平台高级工程经理,和许多志愿者一样来自武汉。志愿者中有数据科学家、工程师,也有各专业学生、学者、教授,他们加入小组的原因不尽相同,但都表达了对疫情中受影响群体的关注,并希望能为新冠疫情数据透明化尽绵薄之力。


数据库中的北美数据提供细分到州/省-市/郡的新冠疫情追踪,覆盖北美市、郡共 3169 个,记录了包括确诊、死亡、治愈(recover)、检测及住院数的实时数据。除此之外,数据库还记录了 188 个国家或地区的新冠确诊、死亡、治愈数据,对于其中横跨五大洲的 25 个疫情最严重的国家和地区,数据库记录了省区一级的统计数据。数据库还在继续添加更多国家和地区的分省、州数据。截至论文发布之日,此新冠数据库是同类数据库中覆盖国家范围最广、实时性最强且地理区域颗粒度最细的疫情平台。


image.png


该数据库不仅提供实时更新的数据追踪网站以供公众查阅,还提供 API 接口工具,以供研究者、学校、研究机构、平台、公司等使用。同时,对应的数据追踪网站中提供了多种地理分布与时间序列的交互式数据可视化工具,包括细分到州/省-市/郡的交互式病例分布地图、细分到州/省-市/郡的数据筛选与排序、全景的时间疫情趋势折线图、跨国家/地区/区域的疫情发展趋势横向比较动态展示图等,以供用户进行全球疫情的初步数据比对。


image.png


为了达到实时、精确、范围广、颗粒度精细的目标,团队结合了人工主动搜索录入、自动化数据抓取和汇总,以及用户反馈线索的众包方法,在疫情发展的不同阶段对数据的展示和格式进行了多次创新改革,以保证数据能够已最优形式满足广大用户使用需求。


此新冠数据库的数据抓取保持全天实时更新,使用原始官方数据及可靠的权威媒体报道作为信源。为保证全面控制数据准确性,团队使用了多种方法优化了数据搜索、整理和发布的流程:


1. 团队优先使用相较更为基层的卫生部门发布的最新数据更新数据平台,以解决更高层级卫生部门统计收集、发布时间滞后导致的数据不及时问题;


2. 为应对客观原因导致的原始数据中的噪声,如确诊数目非常规的波动,或累计数字出现下降等情况,团队通过对比多条信源来进行合理的修正,同时对相关地区的历史数据进行全面复查;


3. 设置网页前端发布的特定统计量变化限制,对比后端最新录入数据与历史数据,以防正在更新核查中的数据被错误的部署到网页前端;如发现数据有异常波动,会有相应的志愿者进行手工核查;


4. 在网站提供了用户反馈入口,以方便网站用户给志愿者提供当地的最新疫情信息或新闻线索。大量的用户报告提高了数据的及时性、准确性。