校园招聘信息
请以中国出版集团的校招通知为准
全站>新闻中心> 详情

前沿 | 那些无法忽视的数据背后—— AI病毒传播预测模型探索新冠肺炎疫情防控态势,拐点将至

本部要闻 来源:中译语通CEO 于洋日期:2020-03-02浏览次数:3311

2020年,突如其来的新冠肺炎疫情给我们的社会提出了若干无法回避的问题:在这场疫情面前我们做了什么?还应该做些什么?冷冰冰的数字带给我们的不应只是叹息、只是伤痛,我们需要用掌握的科技手段感知数字背后的攻与防,探测病毒传播的态势,研判疫情变化的若干重要节点和必需的防控措施。

AI病毒传播、防控与预测模型

我们通过该平台对疫情数据进行了深入研究,构建了一个新冠肺炎疫情传播预测模型,并进行了系列化推演。我们在流行病学病毒传播模型基础思路之上,结合模拟程序进行推演,充分地考虑各种可能的因子变量,不仅包括了总人数、初始发病人数、新增确诊、累计确诊、现有疑似、新增疑似等病患数据,还考虑了人口流动率、潜伏期、收治响应时间、医疗资源充足率等与病毒传播相关的20多个因子变量。我们试图面向未知病毒传播构建一个动态的疫情感知与防控评估系统。

在我们看来,一个科学的算法模型的背后体现的是疾控专家们对每一步疫情防控措施与节点的控制。对拐点的预测也好,病例峰值的预测也好,某种意义上是对疫情控制节点的评估。借助强大的机器学习与算力,我们能做的恰恰是用数据来发现每一个防控节点,并据此为政府相关部门预先感知和研判疫情形势、做出防控决策提供依据和参考。这里需要强调的是,这个模型中运用的每一个因子都是一个变量。其对应的或是防控措施(如隔离措施)、亦或是医疗资源(如医院床位)、再或是人口流动政策(如政府延长假期措施)。我们希望通过优先控制重要因子节点,模拟演绎和推导疫情传播扩散过程,并非仅仅是用算法预测一个结果。

一、数据揭示疫情传播中的四个重要假设及拐点预测

1585712531(1).jpg

新型冠状病毒肺炎传播及治愈趋势


在疫情防控过程中,所谓的拐点,是一个由众多复杂因素交互作用产生的节点。我们尽可能地综合考虑病毒传播的影响因素,使用公开疫情数据去计算出可能的时间拐点。计算结果的本质在于如何通过复杂的关键因子和关键节点控制实现最终疫情的控制。所以,我们通过模型做了拐点的计算。

第一拐点:2月6日前后新增确诊病例达到高峰,而从官方公布数据看,日新增确诊病例在2月4日达到高峰。随后日新增病例逐渐减少,全国范围的防控措施显现效果。2月10日前后,日新增确诊病例出现第一次波谷。春节期间,多省推行交通管制及隔离防护措施,抑制疫情扩散的效果得到显现,日新增确诊病例逐渐减少。但由于节后返程影响,疫情存在再次小规模爆发隐患,因此,大家请注意做好防护措施。

第二拐点:2月13日至15日前后,日新增确诊病例或出现反弹后,可能会出现我们期待的第二个疫情拐点,日新增病例逐渐减少。但需要特别注意的是,该段期间为返程潮的平均潜伏期,节点延长,带来的变数增大。

第三拐点:2月20日前后或出现第三拐点,每日治愈病例超过每日新增病例,病患总数逐步下降。


二、病毒传播防控模型解释重要因子影响力:病毒再生基数、人口流动率、医疗资源充足率、传播速率

从本质上,病毒传播是复杂社会网络上的节点相互作用的动态过程。我们基于传染病模型及动力学理论,通过调用复杂的社会网络分析、数据挖掘、计算机仿真等方法,通过构建此次病毒的传播态势模型,揭示并推演事态发展的关键节点及时间点。下面我们选取了有代表性的三个或者三个类别的因子:病毒再生数、人口流动和医疗资源,用较为通俗的方式说明数据与防控之间的关系。预测模型是一个非常复杂的计算结构,任何一个因子不可能完全孤立讨论关联,寥寥数语难以周全,更多的旨在说明我们可以通过更细致的计算,努力寻求更科学的控制节点。

1、病毒再生基数因子与隔离措施

病毒再生基数,是指一个病例进入到易感人群中,在理想条件下可感染的二代病例个数,或者我们通俗点的理解为病毒的传播速度,病毒传播速度越快,疫情越严重。同一个时间范围内,同一个传染源,染病人数则会随着病毒再生基数的高低而变化,病毒再生基数越高,染病人数越多。根据已有的研究,英美专家表示该再生基数达到3.8,国内则有研究团队表示再生基数高达6.47。作为参考,2003 年非典型肺炎的最初 R0 值为 2.9(不包括超级传播者),然后升至 2.0-3.5,隔离后降至 0.4。

算法模拟中,假设其他因子不变时,病毒再生基数减半,从6.47降到3.23,最终感染率从38%降低到28%,整个疫情时间缩短约8%。由此可见,为控制疫情的传播,做好隔离防护措施是很有必要的,尤其是传播途径的阻隔,可以有效控制病毒的传播率,减少人员感染。

2、人口流动因子与政府延长假期

人口流动加大了病毒传播的可能性,人口流动越快,病毒传播和感染的可能性越大。反之,人口流动越慢,可感染的目标越少,越有利于疫情控制。当人口平均流动意向为1.42时,可感染的人群目标少,新增确诊数量也会随之降低,只有2068人;当人口流动意向为3.5时,可感染的人群目标变多,最后的新增确诊数量也会随之升高,达到3148。

为了控制疫情的传播,减少人口流动是非常必要的,尤其减少聚集性活动,才能从源头控制整个疫情的扩散。但是为了维持社会和经济活动的正常运转,随着春运返程,一定程度上人口流动的提高会延长整个疫情控制的过程。我们也努力地试图通过计算机模拟去发现实施人口流动控制的时间窗口。

3、医疗资源充足率与病毒传播速度

医疗资源是一个非常复杂的因子类别,包括了医院床位、医护人员、医用物资、治疗手段等等,模型力图通过挖掘数字的关联度,使得我们在疾控实践中提供必要的决策依据,实现医疗资源的合理配置。医疗充足提高了对已经患病或疑似病例进行隔离救治的可能性,医疗资源充足率越高,对病毒传染源头的控制能力就越强,疫情控制越有效。1月23日武汉启动“封城”至2月2日区间,累计确诊病例平均日增幅为37.06%。2月3日至2月11日,随着火神山医院、雷神山医院及方舱医院的筹建以及医护人员支援,医疗资源逐渐充足,累计确诊病例的平均日增幅12.13%,并且数据还在持续向好。

我们基于流行病学病毒传播研究,结合开源模拟程序,并进行优化与改进,在模拟过程中考虑了总人数、初始发病人数、潜伏期、人员流动程度、医院/隔离区容量、医院/隔离响应时间、死亡率与治愈率这些因素。通过对这些因素进行不同设置,尝试对人们在控制传染病疫情时候的一些关键因素进行描述与推演。

我们统一设置总人数为5000,对应模拟过程中每一个点。以人员流动程度(从1-10分10级,1为最小,10 为最大)评估人与人接触的概率。发病者接触健康人,健康人有概率被感染,被感染的人首先进入潜伏期,当发病之后会在医院/隔离响应时间之内被收治,所有感染存在死亡概率,如果病人能挺过去就算治愈/自愈。

4、基于人工智能的GIS公共卫生疾控系统

我们尝试地整合多模态数据构建算法模型用于查看和管理与特定位置相关的信息,分析空间关系以及对空间过程进行建模,对于政府管控疾病传播、发展、预测结果和应急管理提供支撑,有效的提供传染病监视的IT工具,爆发调查以及计划和响应活动。我们尝试结合区域及周边数据,分析模拟疫情对生产活动、防控物资流通和经济活动产生的可能影响,如区域人口流动、企业分布和用工量,区域病毒传播与爆发模拟以及管控措施模拟。

5、计算机可视化模拟:多变量场景可视化传播趋势分析传递病毒控制关键

我们基于这个模型,通过计算机的可视化模拟,探索下武汉的新冠肺炎疫情的传播与防控态势。首先,我们看下疫情爆发初期,也就是2019年12月到春节前期间。这段时间湖北省处在高人员流动状态。我们将医院床位设置为50,将人员流动程度设置为10,死亡率参考钟南山院士最新发布数据设为1.4%,可以看到,短期资源有限,医院床位迅速被占满,出现“医疗资源挤兑”现象。

1- 新冠肺炎疫情最初的传播扩散态势演绎.gif

新冠肺炎疫情最初的传播扩散态势演绎

当医疗资源无法满足隔离需求的时候,疾病快速扩散。

2- 医疗资源紧张情况下新冠肺炎疫情传播扩散态势演绎.gif

医疗资源紧张情况下新冠肺炎疫情传播扩散态势演绎

从春节前夕,2020年1月23日湖北开始启动“封城”措施,直到2月2日,各省市区加强人员流动管控,整个中国的人员流动处在极低状态。伴随火神山、雷神山以及各种方舱医院,还有全国各地的“小汤山”的筹建,隔离防控措施得以更好落实。这时,我们可以将人员流动程度设置为1,医院床位设置为100,死亡率不变,可以看到,疾病扩散速度降低很多,经过一个过程才最终得到控制。

3-实行严控措施后疫情传播扩散态势演绎.gif

实行严控措施后新冠肺炎疫情传播扩散态势演绎

然而随着整个国家维持正常经济运转以及各行各业的复工需求,人员流动程度会适度提高。我们将人员流动程度提高到5来看模拟效果。疾病扩散速度会有所提升,并且整个疫情会比之前维持更长时间。

4-企业复工潮下新冠肺炎疫情传播扩散态势演绎.gif

企业复工潮下新冠肺炎疫情传播扩散态势演绎

当我们保持其他条件不变,增加人与人之间的接触防护,例如带上口罩,勤洗手,从而只调整人与人之间的传播难易程度的时候,就会看到,在不同的传染概率情况下,会有不同的情况,我们把人与人接触传染的概率从0.8降低到0.4,可以看到在相同的时间内,与实行严控措施后疫情传播扩散态势演绎比较,疫情规模明显减小。

5-继续加强防控下的新冠肺炎疫情传播扩散态势演绎.gif

继续加强防控下的新冠肺炎疫情传播扩散态势演绎

此外,我们还通过计算机对人类历史上的一些大规模传染病疫情进行了可视化推演。其中比较典型的两个就是“1918年西班牙流感”与“1910中国东北鼠疫”。

第一次世界大战期间发生的西班牙流感,在全世界造成约10亿人感染,近4000万人死亡。这次大规模传染病疫情可以认为是一次没有任何有效隔离与流动控制的典型案例,期间甚至因为美国的参战加速了疫情的传播。将医院/隔离区床位设置为0,并且将人员流动程度设置为7(虽然是100年前,交通没有现在发达,但是当时美国参战后把感染士兵派往战场,加速了疫情的传播),死亡率设置为5%(参考H1N1死亡率),来模拟这次疫情。可以看到模拟过程中,疫情快速传播,仅仅用22天时间就感染了超过50%的人口,最终几乎所有人都被感染,并且造成大量死亡。在真实世界,甚至有西班牙流感提前终结第一次世界大战的说法。

2-“1910中国东北鼠疫”疫情传播扩散态势演绎.gif

“1918年西班牙流感”疫情传播扩散态势演绎

“1910中国东北鼠疫”伍连德被任命为“东三省防疫全权总医官”,在确认疫情为鼠疫后,分析认为是通过呼吸道构成人传人,因此决定通过隔离病患,并控制人员流动来控制疫情。最终伍连德通过4个月时间,控制了核心疫区的疫情传播。我们将初始感染人数设置为20,隔离区床位设置为120,人员流动程度设置为3,来模拟这次疫情,死亡率设置为60%。可以看到,虽然初始感染人数比“西班牙流感模拟”多,但是还是在一定时间控制了疫情,并没有导致全部人口感染。

2-“1910中国东北鼠疫”疫情传播扩散态势演绎.gif

“1910中国东北鼠疫”疫情传播扩散态势演绎

从以上不同的模拟可以看到,隔离与控制人口流动是防控传染病疫情的重要手段。

三、疫情恐慌指数分析

GRPI全球恐慌指数(Global Risk Perception Index)是我们在2018年研究出来的通过开放的数据测量市场情绪的重要指标。该指数建立在新闻传播学原理、心理学社会风险及恐慌情绪等原理的基础上,主要针对媒体报道数据及网民社交活动轨迹数据,通过选取对恐慌情绪具有强烈影响性的危害度、集中度、关注度、陌生度、主观度、失控度、可信度、激惹度等维度及衡量标准进行一系列因素前测及权重分析,再利用机器学习的手段综合计算得出,是用以衡量历史及时下全球媒体及网民对事件的综合恐慌波动程度的指数标准。

我们希望通过恐慌指数的分析来找到病毒传播与形成恐慌的时间间隔,以期疾控相关部门能够通过提供及时的透明的信息、科学的指引以及快速的救治相应降低民众恐慌造成的病毒防控的负面影响,如短时间造成医疗资源的短缺等。

通过机器学习,量化市场对疫情的情绪态度,形成疫情恐慌指数,指数走势如下图所示,【声量】指当天与疫情相关的新闻报道量,【恐慌情绪】表现市场恐慌情绪变化。

疫情恐慌态度的关键词主要包括钟南山、人传人、丁香医生、新型冠状病毒、新型肺炎、新冠肺炎、武汉肺炎等共56个。我们通过机器学习对这些关键词进行学习,使得机器不仅仅分析关键词,同时也具备篇章理解的能力。通过关键词对信息进行模糊检索,再通过机器学习及算法推荐使机器能透过关键词具备篇章语义理解的能力,从而实现恐慌的分析。


1.png

§ 1月11日至1月20日:虽然疫情从12月初就已经有苗头出现,但是由于相关信息披露较少,市场情绪相对稳定;

§ 1月20日:钟南山接受央视新闻采访,公开指出病毒可能存在人传人现象。由此开始,疫情恐慌情绪快速出现上升,市场关注度快速增长;

§ 1月21日:钟南山的采访结束之后,经过短时间的发酵、酝酿,群众对新冠疫情传染的担忧暴涨,到了1月21日,恐慌指数首次向上破零,达到了0.54;

§ 1月23日:武汉宣布封城等重磅措施,恐慌情绪持续零上;

§ 1月24日:湖北、安徽、北京、上海等多省启动一级响应,公众情绪出现巨大恐慌,恐慌情绪达到了阶段最高值3.85;

§ 1月24日至1月30日:虽然感染人数仍在不断上升,恐慌情绪仍然存在,但是随着国家一系列相关强硬措施的落实,公众的恐慌情绪在逐步缓和。

§ 1月31日至今:随着隔离、交通管制等防护措施的落实,疫情逐步得到控制,恐慌情绪逐步好转。

2.png

通过疫情恐慌指数拟合,可以看出,三者之间存在着合理的对应关系。

1月26日后,增加使用核酸试剂盒进行确诊,新增确诊病例快速增长,治愈病例增长迟缓,一系列的隔离封闭措施促使民众恐慌值快速爬升,2月4日,新增确诊病例达到阶段峰值。

随着各地医护人员驰援武汉等一系列防护及治疗措施的逐步实施,在2月4日后,新增确诊病例下降,新增治愈病例逐渐增多,民众情绪进入相对平稳期。

§ 1月24日 07:54 “武汉将以小汤山模式建医院”的新闻发布,获得了1656条评论、737次转发、26435次点赞,新闻热度开始酝酿。网友对该医院的建设抱有高期待,并祈祷武汉好转,疫情结束。

§ 1月25日 17:26 “武汉决定再建一个小汤山医院”新闻发布,获得了3565条评论、4632次转发,68919次点赞。关于医院建设的新闻,公众持续保持高度关注。

§ 1月27日 10:12 “长镜头直播!看武汉火神山雷神山医院施工现场”的现场直播,向观众动态展示医院建设情况。视频共获得2285万次的观看量、207374条评论、20926次转发、1096611次点赞。

§ 1月26日,一线医院可自行进行核酸检测,伴随着多个医院使用试剂盒,确诊病例有所增加;1月27日,日增幅64.54%达到峰值。因此,市场恐慌情绪出现加剧现象。

§ 1月24日至1月27日期间,国家出台一系列的有力措施来稳定疫情和民众情绪。其中武汉版小汤山医院(火神山医院、雷神山医院)的建设可以说是重中之重。2003年非典疫情期间,北京昌平小汤山的建设在疫情控制和病患治愈方面发挥了重要作用。因此武汉小汤山模式医院的建设也给予了民众信心。从数据上可以明显看出,四天之内恐慌指数明显下降。

日期

声量

恐慌指数

2020-1-24

79458

3.85

2020-1-25

88773

2.54

2020-1-26

120547

3.06

2020-1-27

136158

2.14

我们希望在复杂的事态中,保持一份求真的态度,通过我们对数据专业的理解,在千丝万缕的关联因素中,剥丝抽茧,渴望部分再现此次病毒传播过程中各要素的内在关联,从而揭示其演变规律,进而测算相关管理策略可能产生的影响,为医院、疾控和政府部门在瞬息万变的社会网络中应对疫情传播扩散态势争取宝贵的时间,提高检测和预警的能力,尽到一个企业的社会责任。我们也抱着开放的心态,愿意向我们的医院、疾控机构和政府相关部门开放,希望我们的研究能够为这场战疫贡献一份绵薄之力。

写在最后,我要特别感谢这些日子来并肩战斗的小伙伴们,有数学大神(算法工程师)、攻城狮(大数据工程师)、画家(产品设计)、呼吸科博士、影像学专家和疾控专家和北京青燕祥云科技有限公司。感谢大家的不眠不休,感谢大家的执着与坚持!


扫描二维码分享到微信

联系我们