中国在 AI 预测新冠肺炎患者病情方面,又有新进展。
2020 年 7 月 15 日,钟南山、联合腾讯以及广州呼吸健康研究院的专家,在 Nature 子刊 Nature Communications 上,发表了题为《深度学习在新冠肺炎危重患者早期分诊中的应用》(Early triage of critically ill COVID-19 patients using deep learning)的论文。
图 | 钟南山团队与腾讯 AI Lab 联合研究成果,已发布于 Nature Communications,并向全球开源。
论文第一作者分别是广州呼吸健康研究院院长助理梁文华博士、和腾讯 AI Lab 医疗中心首席科学家姚建华博士;论文共同作者为钟南山院士、广州呼吸健康研究院院长何建行、腾讯 AI Lab 医疗中心负责人黄俊洲。
这项研究,也是钟南山团队、与腾讯共同成立的大数据及 AI 联合实验室的成果之一。
论文中,钟南山团队与腾讯 AI Lab、披露了利用 AI 预测新冠肺炎患者病情发展至危重的概率研究成果,该成果可分别预测 5 天、10 天和 30 天内病情危重概率,病人的早期分诊将会借此得到优化。
此研究基于深度学习所建立的 Cox 模型(Cox 模型,又称比例风险回归模型,即 Proportional Hazards Model),对新冠肺炎患者入院时的 10 项临床特征进行分析,从而帮助预测患者病情发展至危重的风险。
研究成果已经在 GitHub 开源
依据此模型开发出的预测工具 “新冠肺炎患者重症早期分诊系统” 已经公开于https://aihealthcare.tencent.com/COVID19-Triage_en.html。
医护人员只需输入患者的临床特征,上述系统就可以返回患者在 5 天、10 天和 30 天内病情发展至危重的概率,这对新冠肺炎疾病的管理,具有极高的临床价值和经济价值。
同时,这项研究成果也通过 GitHub 向全球开源,以支持全球抗击新冠疫情,GitHub 开源项目查询链接为
https://GitHub.com/cojocchen/covid19_critically_ill。
临床研究显示,轻度新冠肺炎患者具有一定自限性,即疾病在发展到一定程度后,靠机体调节就能够控制病情发展、并逐渐痊愈。但 6.5%的此类患者有突然进展为严重疾病的趋势,如果发展为重症病例,其死亡率高达 49%。与此同时,大量医疗护理资源也将投入进去。
因此,轻度新冠肺炎患者突然恶化为重症,是抗疫工作中重点关注的问题之一。同时,早期识别不同风险的患者、并进行有效分类,也有利于医疗资源的高效合理分配,确保最有重症风险的患者尽快得到最合适的医疗及护理。
然而,准确预测患者进展至重症的风险并非易事。研究团队发现,临床中经常采集的患者特征多达 74 个,自然也就难以采用传统方法,去建立准确的预测模型。
大数据牵手 AI,不可能变为可能
但大数据与 AI 的联合,将不可能变为可能。在合理有效的前提下,研究团队以腾讯 AI Lab 技术为核心,通过机器学习选择变量算法,确定出十个可通过常规医学检测手段获取的患者特征指标:即 X 线影像异常、年龄、呼吸困难、慢性阻塞性肺病、合并症数量、癌症病史、中性粒细胞 / 淋巴细胞比、乳酸脱氢酶、直接胆红素和肌酸激酶。
图 | 训练队列中 10 项所选特征的单因素分析(来源:Nature Communications)
随后,研究人员使用来自 575 家医院的、1590 名新冠肺炎患者的脱敏数据进行模型训练,开发出基于深度学习的新型 Cox 模型。
据悉,该模型是进行生存分析(Survival Analysis)的常用模型之一,可根据患者入院时的临床特征,预测病情发展至危重病的风险。
研究团队还对深度学习 Cox 模型的一致性做了验证,结果发现,评估模型预测结果精准度的一致性指数(C 指数)为 0.894,较未进行深度学习的经典 Cox 模型的 0.876 有所提升,也显著高于传统衡量肺炎严重程度的 CURB-6 模型的 0.75。
图 | 模型性能比较(来源:Nature Communications)
为测试模型的普适性,研究团队对不同地理区域、和不同卫生资源水平的三个独立队列进行了测试。患者队列涵盖武汉市、湖北省内除武汉市的以外地区、以及疫情期间未出现健康资源枯竭的广东,外部测试病例与模型训练病例的范围均未出现重叠。通过回溯共计 1393 例外部患者的检验数据之后,该模型的预测性能也得到实践验证。
考虑到实践中会发生数据不完整的情况,即模型所需的 10 项特征中可能有一部分并未得到测量。针对该问题,研究团队在系统中加入多变量数据插补模块,基于可观察到的变量,来找到可作为参考的相似样本,并通过拟合算法来插补缺失的数值。
仅检测到 7 项特征时,依然可以使用
为提升模型的鲁棒性(Robustness,即系统健壮性,是系统在异常和危险情况下生存的关键),研究团队在训练深度模型的过程中,采用随机丢弃数据、并添加数据噪音的方法。最终得到的模型,在仅观测到 7 项特征时,依然取得了不错的表现。
为方便医护人员解读该模型的检测结果,研究团队在深度 Cox 模型的基础上,加了一层线性 Cox 模型。该线性模型可通过诺模图(Nomogram,据运算方程式或实验结果,应用几何原理用若干有标尺的线条、所绘成的运算用图)进行手动计算。
图 | 本次研究涉及到的诺模图(来源:Nature Communications)
医护人员可以直观了解各项观察值、与风险系数之间的权重和关系,同时还可在无电脑情况下、手动计算风险系数。
2020 年 4 月,美国知名医疗机构梅奥诊所就已经开始用 AI 分析新冠肺炎感染的临床特征,最终发现腹泻是最值得关注的早期症状之一。在阳性患者测试 4-7 天前,绝大多数都会同时出现咳嗽和腹泻症状,伴随着味觉或嗅觉丧失和大量出汗。这些症状后来被用于早期病例的筛查中。
比梅奥诊所更早,2 月 27 日,钟南山院士团队就与腾讯公司宣布达成合作,共同成立大数据及 AI 联合实验室,携手持续抗击新冠肺炎疫情,将以大数据及 AI 攻坚流行病、呼吸疾病和胸部疾病的筛查和防控预警。
大数据及 AI 联合实验室副主任、腾讯医疗副总裁吴文达医生指出,当前新冠肺炎疫情在全球持续蔓延,高效抗疫并降低患者死亡风险,仍是取得抗疫胜利的关键,希望大数据、AI 等新技术能够在抗疫常态化中发挥作用,更有效地防控流行病疫情。
此外,借助开源力量,该公司将进一步为抗疫出力。