导语:研究者复盘了谷歌近8年流感相关搜索数据,利用AI模型预测流感疫情。该研究可能使数万人免受流感的夺命威胁。
智东西7月10日消息,近日,东京大学研究者利用美国医院数据和谷歌搜索数据,建成了可以预测流感疫情的AI模型。试验表明,该模型在提前四周预测流感感染规模上效果显著。
据估计,全球每天有3140多万人次因流感上门诊就诊,有20多万人因流感前往医院。2017-2018年之间爆发了近年来最持久、最严重的疫情之一,造成约8万人死亡,近100万人住院。
谷歌曾在2008年推出“谷歌流感趋势”(GFT)产品。GFT会根据汇总的谷歌搜索数据,对全球实时流感疫情进行估测。虽然GFT很长时间内被视为大数据运用典范,但是因为预测失准,在2014年受到学界强烈质疑。
近日,东京大学的研究者在Arxiv.org上发表论文《Seq2Seq方法:利用谷歌趋势数据预测流感》表示:他们建立了一个系统,用来结合谷歌数据训练模型,以此提高流感疫情预测精度。据称,他们的方法在初步测试中取得了界内最先进的结果。
“如果我们尽早预测到流感,就可以使它的影响大打折扣,能帮助医疗工作者筹备足够的疫苗及抗流感药品。”该论文的一位作者写道,“过去有许多项目都研究了流感预测,但是,它们的准确度和前瞻性都不强。”
一、试验基本原理:运用Seq2Seq模型
该团队利用的人工智能模型是一种“加入了注意力机制的序列到序列”模型(Seq2Seq attention model)。这种模型可以对输入的数据进行选择性处理。
像大多数机器学习系统一样,Seq2Seq模型由数层数学函数(神经元)组成。神经元吸收数据并将其传递给后续的各层神经元,在此过程中调整神经元之间连接的强度(权重)。根据输入的数据(向量),编码器会输出对应的编码向量,解码器对输入的向量进行解码并预测下次输出结果。
研究所需数据主要来自一些美国医院的流感疾病信息库,是由美国疾病控制和预防中心提供的。但这些数据被称为暗数据(dark data),因为这些数据无法拿来独立推导预测。
这就需要谷歌趋势数据加持了。理论上,这些数据结合起来,研究人员就可以估算人们在任何时间点感染流感的可能性了。具体来说,他们选用了“流感”一词的谷歌搜索频率数据,以此对模型作补充训练,进而预测人们感染流感的规模。
二、1-4周预测准,相关系数超0.996
总的来说,研究小组使用了六个州患流感人数的未加权百分比数据。这六个州分别是纽约州、俄勒冈州、加利福尼亚州、伊利诺伊州、德克萨斯州和佐治亚州,是根据气候差异选择的。然后,研究人员将这些数据与2010.10.10-2018.12.30的谷歌趋势数据相结合,以进行试验。其中,约有67%的数据用于训练人工智能模型,37%用于测试。
试验表明,在1-4周的预测周期内6个州的情况中,Seq2Seq attention模型的相关系数显著更高,均高于基线模型(0.996)。此外,它的均方根误差为0.67,表明数据相对集中在最佳拟合线附近。
研究者说,当预测时间增加时,流感感染峰值会显示下移。这时,预测结果是不准确的。不过,他们之后会尝试增加一个先行指标,来进一步提高准确性。
文章来源:Benturebeat