首先,这是一篇科普文章。是介绍或翻译陈述各国实验室上传的新冠病毒基因组图谱信息。这里不存在作者自己所下的结论。如果已经抱有主观结论的人,不愿意面对客观事实的人,为甩锅不择手段的人,逢美必骂的人,建议可以绕道了,免得会让你老心情不美。
到北京时间3月24日中午左右,"下一个病毒株”网站数据库GISAID已增加到 1111个COVID-19新冠病毒基因组 ( https://nextstrain.org/ncov/zh)。比一周前增加了约一倍。(参考3月17号: )。
现在网站展示的病毒系统发育树,几乎每天都有一些变化。虽然树形图基本仍然延续了原来的大组(L)和小组(S)两个亚型布局,但是现在越来越趋向于形成三个大的分支,加上众多数据量还不多的小分支。
第一个大变化,原来位于大组里的欧洲主爆发族与原来S组被互换了位置。这显示对根部分支的判断还不是十分牢固,正象那个“荷兰独立支”最初在不同的两个位置摇摆不定类似 (参考: )。第二个比较大的变化,原来L组的许多分支的探源路径越来越清晰,而聚合成一个更大簇,小编暂时称之为全球簇吧,这个簇里包括欧洲、亚洲、大洋洲、北美和南美巴西等基因组数据。被放进大组里的原来S型组就暂且称之为环太簇吧,因为这个簇主要包括东亚、东南亚、大洋洲、美国华盛顿州主暴发簇以及南美智利的基因组数据,即主要是环太平洋国家的数据,也有少量欧洲样本。
(COVID-19系统发育树矩形图,截止到3月24)
上图是全部1111个数据系统发育分支矩形图。横轴是采样时间顺序。可以分成三个时间阶段:
在2020-01-06号之前的数据都是武汉数据(紫色部分),最早的一个武汉病例采集日期2019-12-24日。这也是疫情的第一阶段,即武汉传播阶段。
从2020-01-07到大约2020-02-20号左右,是中国疫情暴发和控制阶段,主要波及到东南亚和韩日等国家。这是疫情的第二发展阶段。在这一阶段中,除了韩国因为出了邪教幺蛾子曾发生大面积集体性感染之外,新加坡、越南、泰国、香港、台湾、日本等地区都相对控制得比较好。这一段时间的样本也主要来自于这些地区。
大约从2020-02-21之后,伊朗和欧美国家的疫情开始迅速大规模暴发,这是疫情的第三阶段。这一段时间的数据库数据主要来自这些地区,同时来自中国的样本(蓝色部分)也继续在增加。图中红色部分是表示美国的样本,而绿色、黄色、橙色等是欧洲的样本。虽然伊朗疫情很严重,但来自于伊朗上传的数据仍然没有。但从伊朗输入到其他的国家的病例有不少。
下图是网站显示的 新冠疫情全球扩散图。有三大传播中心。分别是中国、伊朗和欧洲。紫色线是表示从中国(武汉)向外的输出传播。深蓝色线表示从伊朗向外的输出传播 (注意缺少伊朗样本,这是根据截获从伊朗输出样本而分析的)。黄、绿、橙色线表示从欧洲向外的输出传播。美国向外输出的样本很少,基本上都是向美国输入。如果新冠病毒早就在美国传播,应该会看到相反的输出结果。
(COVID-19全球扩散传播图,截止到3月24日)
需要继续重点说明的是, 几乎每个国家都有很多不同的输入源。从国际人口流动的逻辑上看,也应该如此。甚至美国一个华盛顿州都有好几支不同的输入源。所谓“零号病人”,对于大部分输入地区来说,已经失去意义。比如从按时间顺序的辐射雷达图来看,荷兰的样本几乎在每个分支里都有出现,这也是因为最近两周荷兰上传了大量数据。这显示了新冠疫情极为复杂的国际感染和传播路径。
(COVID-19系统发育树辐射雷达图,按时间顺序,截止到3月24日)
欧洲的主暴发簇比较显眼。由于欧盟一体化,国家之间可以自由通行,这个主暴发簇在欧洲地区传播最为广泛。必须要说明的是,欧洲地区并不仅是这一支,而是有非常多的不同输入来源支系,只不过由于超级毒王的传播,这一支发展得最为壮大。从这个欧洲主暴发簇向外传播地区主要是南北美洲和非洲,以及大洋洲。显然由于这个暴发簇的传播贡献,新冠疫情终于点亮全球。
(欧洲主暴发簇系统分支矩形图,截止到3月24号)
(欧洲主爆发簇全球传播路径图,截止到3月24号)
需要进一步说明的是,从欧洲主暴发簇传进了美国多个州,包括纽约州、威斯肯星州、加利福尼亚州、华盛顿州和犹他州等。其中传进华盛顿州的这一支仅次于与武汉或福建病例有关联的华盛顿州暴发主簇。从分支图上看,从欧洲主暴发簇传进美国主要是由法国人和荷兰人完成的。虽然特朗普第一时间从中国撤侨断航,较大程度上阻断了疫情传播,他却忘记关闭欧洲大门,病毒利用欧洲人暗度陈仓,大面积在美国各个州播种。
(从欧洲主暴发簇传进美国,上为系统发育分支图,下为传播路径图,截止到3月24日)
有的人对欧洲主暴发簇很感兴趣,甚至妄加揣测,说中国的疫情是由欧洲传入的( 制造阴谋论推陈出新)。实际上这是不符合基因溯源原理的。最近上海方面实验室上传了三个新样本是在这个簇上。从这个主簇的根部看,其中上海SH0014样本,加上新上传的一个芬兰和荷兰样本,以及原来德国巴伐利亚样本,构成了这个簇的最早几个样本。上海SH0014样本、德国巴伐利亚样本和芬兰一例样本,都是只有2步突变,基因序列完全相同。荷兰样本有3步突变。 以后突变暴发的欧洲主簇都是以这个2步突变的基因序列为祖先。上海和德国样本又是1月28号同天采集。如果说是欧洲人或德国人把病毒传播给了这个上海人,但这时都已经到2020年1月底了,武汉疫情都已经扩散一两个月了!这个上海人难道是乘坐时光穿梭机回去传播的?所以这个逻辑错误与中科院西双版纳热带植物所郁文彬所犯错误是一样的,就是不考虑时间先后关系。 (参考: )。
(欧洲主暴发簇突变矩形图,注意根部位置)
(欧洲主暴发簇突变雷达图,注意根部位置)
(欧洲主暴发簇根部三例)
最近还有个意大利医生火了,他在被问到“意大利为何在疫情暴发后表现得措手不及”时,说“在意大利北部地区,在中国疫情暴发之前,这种病毒或许已在传播中”。DeepTech还去采访了他 (参考: ),结果这个医生说他要表达的意思是“病毒在被发现前可能已经在传播”,而对于更早期的肺炎病例,“我没有这方面的科学证据。”“目前从科学角度看,我们可以判断新冠病毒首先在武汉被发现。”他说,“在中国公开之前,它可能已经在武汉传播了一段时间,从遗传学角度可以准确地证实这一点。通过《新英格兰杂志》的论文 (DOI: 10.1056/NEJMc2001468)可以发现,该病毒是通过一位与中国人有过接触的德国人到达意大利的。”总而言之,在他看来,根据《自然 · 医学》杂志上发表的基因研究,这种病毒是从中国传到意大利的。
有的人不懂基因溯源原理,在微博上说欧美国家的病例其突变步数比中国更多,需要演变的时间更长,所以病毒是在欧美国家先出现的。大凡是谣言和错误的东西,更能迎合人心,也更容易“被理解”,也都比事实和科学理论传播快得多。在解释这个问题之前,我先科普下病毒学家是怎么利用病毒突变来溯源的,系统发育树是怎么画出来的。病毒溯源原理与分子人类学溯源原理是一样的,突变是在DNA复制过程中因为发生错误而产生,只不过病毒复制很快,人需要生孩子才能把突变传下去,但病毒几分钟就不知道要复制多少个,所以我们可以在很短时间内看到病毒发生了快速突变。
如下图示意,表示新冠病毒的基因序列,上面有B、M、A、C、E、F、N基因位点。第一条表示原始病毒,没有发生突变。第二条X1表示在A点发生了突变。X1的子孙X2和X3又发生了突变,X2在B点,X3在C点,后代会保留祖先突变,即X2和X3都保留有A突变。这是突变了两步。X2的子孙X4在E点发生突变,X6在F点发生突变;X3的子孙X5在M点发生突变,X7在N点发生突变。如下图。
实际上,基因学家拿到如上面的数据,他需要有一个逆推过程。首先他注意到这7个样例在A位都有发生突变,且X1只有这一个突变,很显然X1是所有7个样本的祖先。其次他注意到X2、X4、X6这三个样本在B点都有相同突变,且X2没有X4和X6的第三个突变,所以可以判断X2是X4和X6的祖先。同样逻辑,可以判断X3是X5和X7的祖先。这样他就可以画出如下的系统发育树图。
以上是理想情况,在实际过程中,很可能会发生巧合突变、回复突变等很多情况,增加了分析错误可能性和不可靠性。由于2019新冠病毒基因只有29000bp左右,即两个不同人携带的病毒同时在A点发生相同突变的概率是1/29000,也就是说一步突变的巧合概率还是相当高的。即虽然都有相同的突变,但很可能有不一样的祖先。所以我们可以看到开头一幕,欧洲主簇与原来S组位置互换了。但如果继续二代、三代到N代突变。那么后续分支巧合的概率就是1/29000n次方,这就非常小了。但在其根部一步突变地方,仍然存在不可靠性。即越到后面的子孙,越不可能认错祖先;但越在前面,长得一样的祖先就越多,就可能会认错。
但是上面推理是在有0号参照情况下,如果没有0号,在有多个分支情况下,又怎么知道谁才是根呢? 除了引进外源(蝙蝠新冠基因组)作为参照,实际上,样本时间也提供了一个很好的参照系。下面两图都是COVID-19无根树,上面一张图是按照突变枝长画的,下面一张图是按照样本采样时间画的。一般来说,时间在前面的是祖先。武汉最早样本比欧洲样本早了约3个月。所以很容易判断突变方向。而后续新增加的突变,又夯实前面的判断。
(COVID-19按突变无根树,截止到3月24日)
(COVID-19按时间无根树,截止到3月24日)
确定了根部,确定了突变方向,我们再看所谓欧美样本突变大多比中国样本多的问题。
首先这是因为中国的大部分样本都是集中于第一和第二阶段,而欧美样本集中在第三阶段,即时间上要晚一两个多月,自然突变数要多一些。
其次,欧美样本突变上游祖先都是武汉或中国样本的突变。即不管下游有再多的突变,也改变不了上游突变。这就是祖先记忆。如下图,西雅图主簇暴发是在6步突变,其前面4步突变也是中国(武汉)样本所具有的,不可能后来样本把突变传给时间更前面的,只可能是继承下来。欧洲主簇暴发是在3步突变,在4、5、6、7突变时都有大量样例。而新提交的广东和上海样本也有到10步突变了。
(COVID-19 系统发育树,横轴是突变数)
第三个原因,数据异常问题。最近几天,有个别新传的数据突变数很大,可能属于异常情况,后来很快被系统修正。还有如上图荷兰独立支,三月份的数据却大多只有1-4步突变,这似乎也是不符合突变速率,就是说突变又太慢了!(参考: )。后来从朋友处获得消息,这个新冠病毒真的很诡异,它的突变速率还可能存在休眠期。而有些异常突变,是否属于突变加速呢?
这次新冠病毒基因图谱的新变化就介绍到这里。需要再说明的是:
这个基因溯源,根据已有基因组数据,揭示新冠病毒最早的根是在武汉。这是网站给出的基本事实,并非小编给出的结论。这个数据库是全球科学家共享数据库,其数据量最大,也最公正客观。尊重科学,尊重事实,是一个优秀的态度。
那么有没有比武汉更早新冠病毒基因组样本?至少现在数据库中没有,未来能不能找到,这是未知数。比如在那个意大利伦巴第能不能找到比武汉更早的新冠病毒样本?所谓美国流感、电子烟肺炎病例中能不能找到比武汉更早的新冠病毒样本?我只能说不排除任何可能性,但这需要给出样例和证据。
逻辑学上有个奥卡姆剃刀原理,常用于两种或两种以上假说的取舍上:如果对于同一现象有两种或多种不同的假说,我们应该采取比较简单或可证伪的那一种。这一表述也有一种更为常见的强形式:如果你有两个或多个原理,它们都能解释观测到的事实,那么你应该使用简单或可证伪的那个,直到发现更多的证据。对于现象最简单的解释往往比较复杂的解释更正确。如果你有两个或多个类似的解决方案,选择最简单的。需要最少假设的解释最有可能是正确的。
这篇文章就是帮助你了解一点新冠病毒的科学事实。然后,你是否能尊重事实、承认事实,这是个人甚至国家的价值取向。而对各种利益取舍又是一种全面的综合考量。如果要高举人类命运共同体旗号,那就不能失去道义。