东京大学AI研究成果：用谷歌搜索和医院数据预测流感疫情_凤凰网科技

东京大学AI研究成果：用谷歌搜索和医院数据预测流感疫情

智东西

2019/07/10 14:38优质科技领域创作者来自北京

导语：研究者复盘了谷歌近8年流感相关搜索数据，利用AI模型预测流感疫情。该研究可能使数万人免受流感的

导语：研究者复盘了谷歌近8年流感相关搜索数据，利用AI模型预测流感疫情。该研究可能使数万人免受流感的夺命威胁。

智东西7月10日消息，近日，东京大学研究者利用美国医院数据和谷歌搜索数据，建成了可以预测流感疫情的AI模型。试验表明，该模型在提前四周预测流感感染规模上效果显著。

据估计，全球每天有3140多万人次因流感上门诊就诊，有20多万人因流感前往医院。2017-2018年之间爆发了近年来最持久、最严重的疫情之一，造成约8万人死亡，近100万人住院。

谷歌曾在2008年推出“谷歌流感趋势”（GFT）产品。GFT会根据汇总的谷歌搜索数据，对全球实时流感疫情进行估测。虽然GFT很长时间内被视为大数据运用典范，但是因为预测失准，在2014年受到学界强烈质疑。

近日，东京大学的研究者在Arxiv.org上发表论文《Seq2Seq方法：利用谷歌趋势数据预测流感》表示：他们建立了一个系统，用来结合谷歌数据训练模型，以此提高流感疫情预测精度。据称，他们的方法在初步测试中取得了界内最先进的结果。

“如果我们尽早预测到流感，就可以使它的影响大打折扣，能帮助医疗工作者筹备足够的疫苗及抗流感药品。”该论文的一位作者写道，“过去有许多项目都研究了流感预测，但是，它们的准确度和前瞻性都不强。”

一、试验基本原理：运用Seq2Seq模型

该团队利用的人工智能模型是一种“加入了注意力机制的序列到序列”模型（Seq2Seq attention model）。这种模型可以对输入的数据进行选择性处理。

像大多数机器学习系统一样，Seq2Seq模型由数层数学函数(神经元)组成。神经元吸收数据并将其传递给后续的各层神经元，在此过程中调整神经元之间连接的强度(权重)。根据输入的数据（向量），编码器会输出对应的编码向量，解码器对输入的向量进行解码并预测下次输出结果。

研究所需数据主要来自一些美国医院的流感疾病信息库，是由美国疾病控制和预防中心提供的。但这些数据被称为暗数据（dark data），因为这些数据无法拿来独立推导预测。

这就需要谷歌趋势数据加持了。理论上，这些数据结合起来，研究人员就可以估算人们在任何时间点感染流感的可能性了。具体来说，他们选用了“流感”一词的谷歌搜索频率数据，以此对模型作补充训练，进而预测人们感染流感的规模。

二、1-4周预测准，相关系数超0.996

总的来说，研究小组使用了六个州患流感人数的未加权百分比数据。这六个州分别是纽约州、俄勒冈州、加利福尼亚州、伊利诺伊州、德克萨斯州和佐治亚州，是根据气候差异选择的。然后，研究人员将这些数据与2010.10.10-2018.12.30的谷歌趋势数据相结合，以进行试验。其中，约有67%的数据用于训练人工智能模型，37%用于测试。

试验表明，在1-4周的预测周期内6个州的情况中，Seq2Seq attention模型的相关系数显著更高，均高于基线模型（0.996）。此外，它的均方根误差为0.67，表明数据相对集中在最佳拟合线附近。

研究者说，当预测时间增加时，流感感染峰值会显示下移。这时，预测结果是不准确的。不过，他们之后会尝试增加一个先行指标，来进一步提高准确性。

文章来源：Benturebeat

打开APP阅读更多精彩内容