不要迷信随机对照试验(RCT)

本文由湘雅医学院临床医学博士,整体健康医学专家-刘浩医生指导

在上个世纪70年代,科学家发明了膜肺(ECMO)。

膜肺的本质是一种人工肺。

当患者肺功能受损时,它能够承担肺的功能,让肺处于休息状态,从而为患者的康复争取到足够的时间。

在当时,膜肺成功地治疗了新生儿的肺动脉高压,让这些孩子的死亡率从80%下降到了20%。

那个时候,膜肺的运行机制和治疗机理都已经是很清楚的了。

但研究者觉得,要增加说服力,还是要进行进一步的试验。

他们首先进行了一个保守的试验。

治疗组和对照组都只放上一个婴儿,如果哪一组的宝宝成功存活了,就给那组再加一个婴儿。

结果是,1个接受常规治疗(对照组)的宝宝死掉了,而11位接受膜肺治疗的宝宝都存活了下来。

但即便是这样了,研究者觉得还是不够,必须要进行标准的随机对照试验(randomized controlled trial,RCT)。

最后的结果呢?

接受了膜肺治疗的婴儿全部都活下来了。

而对照组中的10个宝宝,有4个出现了死亡。

为什么会发生这种悲剧?

因为人们笃信RCT是检验治疗效果的金标准,是反映因果关系的最有效的手段。

在这种信念下,为了谋求“真理”,牺牲一些生命也是“值得”的。

这种想法从上个世纪70年代,一直延续到了今天。

然而,我们必须得拷问,被奉为现代医学基石的RCT真的无懈可击吗?

在进行深入的分析后,我们发现,RCT被过度地神话了。

一、随机的神话

RCT是现代医学在检验某种治疗是否有效时常用的手段。

它的方法就是找一个特定的人群,随机分成两组,一组接受需要测试的治疗,另一组接收安慰剂,最后比较两组,看治疗是否有效。

在很多人的眼里,RCT能够反映因果,并且是评价治疗方法的金标准——不像观察性的研究那样只看相关性,也不像专家意见那样存在偏见。

但问他们为什么是金标准呢?许多人会回答,因为“随机”了呀。

然而问题是,随机不是万能的——随机并不保证达到完全的平衡。

为了帮助理解,我们可以来做一道题目。

假设,在你面前放着100个球——60个红球,40个蓝球;

现在要求你闭着眼睛将这些球随机分成两组,每组分得50个球;

请问,你有多大的概率能保证两组的球是一样的,也就是各有30个红球20个蓝球?

我告诉你答案,是16.2%——也就是说,有超过80%的概率无法分得一样。

所以你可以清楚的看到,随机分成的两组,大概率是存在差异的。

为什么会这样呢?

究其根本,随机没有办法解决“协变量”的问题。

什么是协变量?协变量就是那些实验无法操纵,但却会影响试验结果的变量。

比如说,某种尚未发现的基因突变,会让人拥有更强的自愈能力。

如果这些人更多地被“随机”分到了治疗组中,那么治疗组的人天然就能变得更好——即便药物没有一点用处。

更进一步,我们不知道随机产生的不平衡有多大。

还是刚才的例子,100个球,其中60个红球,40个蓝球——可能一组分了50个红球,另一组只有10个红球(+40个蓝球)。如果红球代表那些“自愈力”更强的人,那么治疗组天生就完胜对照组。

统计学告诉我们,如果要用随机来得到平衡,要做的事情是这样的:

对一个样本进行无限次的分组和无限次的试验,最后再取平均。

但现实情况是,绝大多数的RCT只会做一次。

在某些情况下,就像是在抛硬币。

所以,RCT天生就可能存在偏差——它不等于真相,有时甚至离真相会很远。

二、复杂度的灾难

那你可能会问,既然随机无法带来平衡,那为什么要随机呢?

随机的目的在于为了避免研究者的挑选。

比如,研究者为了证明一种药有效,可能会把最有希望的病人挑到治疗组,而将其他的人放到对照组。

这样一来,药物的试验结果就会很好看。

但正如上面所说的,随机无法消除“协变量”带来的影响,也就无法像人们以为的那样“表明因果”。

那什么能够让RCT更好地表明因果呢?

答案是预先知识。[1]

你需要有预先知识,了解可能影响到结果的“协变量”,从而对受试者进行分层,并从不同的层中进行随机分组。

在最开始的例子中就是,从红球中随机分出两组红球,从蓝球中随机分出两组蓝球,再将分组两两结合;

这样一来,就能够解决随机带来的偏差。

然而,问题是,“协变量”可能是相当复杂的。

在真实的世界中,影响结果的协变量通常远不止一个。

就比如说,人类的基因组中有30,0000,0000对碱基对,它们中的许多都可能会对试验结果产生影响。

而许多慢性疾病,普遍是多个基因和多种环境因素共同作用的结果。

假设有5个协变量,每个协变量有10个值,那么我们就至少需要100000个分组。

这就意味着所需的样本数至少要超过100000人。

毫无疑问,这个量级是绝大多数RCT都无法满足的。

所以,在复杂的问题面前,仅靠RCT来反映因果是不容易的。

三、现代医学的局限

随机无法带来平衡,RCT在复杂面前也显得捉襟见肘。

而事实也表明,RCT存在严重的局限。

2018年的一项研究调查了截止2016年6月,被引用次数最多的10项RCT。[2]

这些RCT可都是重量级的,并且深刻地影响到了政策和指南的制定。

但研究发现,即使是在这些顶级的RCT中,治疗组和对照组的人群分布往往就是不均匀的。

这些受试者的一些背景因素会极大地干扰试验的结果,却没有被研究者考虑在内。

而在使用盲法、实施治疗和监测受试者的过程中,也都存在种种的偏差。

所以,这项研究的作者会感慨:所有RCT的结果都是存在偏颇的。

况且,我们甚至还没有谈RCT的其他局限:

比如在实验的受试者时往往就是经过精细筛选的,因此临床的结果不能随意地外推;

再比如,研究的结果是一个“平均疗效”。就像“平均收入”无法反映你的收入,“平均疗效”也没有办法反映某种治疗在某一个体中的效果。

我们要知道,在循证医学的金字塔中,RCT可是非常高的证据来源。

不管是综述,还是医生用的临床指南,最重要的依据都来自于RCT。

如果RCT并不完全可靠,我们又怎能保证循证医学的金字塔是稳固的呢?

而事实上,我们也看到了这样的一个医学体系存在的问题。

最明显的,在许多慢性疾病的治疗上,当前的医学体系就已经陷入了瓶颈。

当然,需要说明的是,这篇文章并不意在推翻RCT,也不是在反对现代医学的体系。

但我们需要看到的是,RCT和其他许多方法一样,是存在局限性的。

而一个建立在RCT之上的医疗系统,也注定是充满局限的。

“解决问题的第一步,是承认问题的存在。”

而很多时候,承认一个体系中存在的问题,我们将可能迎来新一轮的发展。

就像在经济学中,人们发现了传统经济学“理性人假设”的偏误,于是开创了行为经济学这一全新的分支。

之后,在传统经济学和行为经济学两套框架模型之下,我们对经济的运行有了更进一步的理解。

对于一个人来说,要很好地解决问题,重要的是建立多元思维模型。

对于一个系统,要更好地解决问题,多元的框架模型将是重要的。

而当我们意识到了当前医疗系统的局限,我们可能也需要着眼于寻求新的模式,来构建多元的医学模型。

四、多元的医学模型

医学模型可以在两个方面尝试多元化的探索,一是在寻求因果的方法上,二是在诊疗的方式上。

在传统的模式中,医学界寻求因果的工具,主要就是RCT。

我们已经讲过了RCT的局限性;而更进一步,我们需要知道,其他研究方法在探寻因果关系上,不一定会比RCT差。

方法的好坏,不取决于方法本身,而取决于你所要探究的问题。

举个例子,我们想研究看看,国家医疗保障和私人医疗保险,哪个对人的帮助会更大。

你当然可以设计一个RCT,找到两组人群,一组只有国家医疗保障,一组只有私人医疗保险。

但毫无疑问,这样的一个RCT肯定是花费高昂的,并且没有办法维持长期的研究。

除此之外,你找到的受试者只是一个小群体,很难反映整体的状况。

再进一步,这种试验没有办法进行双盲,也就无法排除人们心理因素的影响。

对于这个问题,观察性的研究显然就要好很多。

它能够通过政府和保险公司的记录获得足够大的覆盖数据,并且也不存在RCT的挑选问题。

并且,观察性研究还可以对要素进行修正,从而让结果更接近于真实。

RCT至上的观点是狭隘的。

而关于寻求因果关系的方法,他山之石可以攻玉。

其他学科,比如经济学和社会科学的方法,也许值得被更多地纳入到医学的研究中。

这些方法包括:

工具变量分析(Intrumental variables)

计量经济模型(Econometric modeling)

从理论中演绎推理(Deduction from theory)

因果贝叶斯网络(Causal Baysian nets)

过程追踪(Process tracing)

定性比较研究(Qualitative comparative analysis)

当然,没有什么方法是完美的;但在多种方法结合以及交叉验证的情况下,我们有更大的概率接近真相。

而在对患者的诊疗上,模型也需要更多样。

循证医学讲,要将可靠的临床证据、医生的经验和患者的意愿结合在一起。

这里的证据,往往就是指南和综述;而医生的临床经验要怎么结合,又是一个很模糊的东西。

于是,一些医生索性就按照指南来办。

但如果只按指南办事,我们是不是只用教会病人自己看UpToDate就行了?

引用一位医生朋友的话:一个只会看指南的医生,早晚会被沃森取代。

每个人都是独立人,但RCT看的是“平均人”。

要解决独立人的问题,以RCT为核心的指南注定无法提供完整的证据。

而临床证据的来源,需要更为多元,可能还应当包括下面的这些:

疾病理论:对于这种疾病,有哪些可靠的理论是可以用的?

微观机理:疾病在分子和细胞层面的机理是什么?

个体机制:根据患者的疾病史、症状、检查结果和家族史,这种疾病在TA身上的发病机制是什么?

而至于医生的经验,也是可以用多元的框架去表达的:

假设演绎:根据现有的信息,我能提出怎样的诊断假设,以及要如何去证明我的假设?

亚组分析:目前的诊断是不是太宽泛了,我能不能再更精确地对患者分组,从而可能带来更好的治疗?

整体分析:除了当前考虑的机制,是否能从营养、生活方式和社会心理层面进行更全面的考虑?是否能联合其他专业人士,包括营养师、健康管理师、心理咨询师,来一起提供解决方案?

类比推理:我以前是否遇见过类似的患者,当时有什么成功的治疗经验?

……

当然,医学范式的转移会是一个漫长的过程。

但面对当前医疗系统的局限,多元化将是一个值得探索的方向。

木森说

当今,许多人认为“RCT是检验真理的唯一标准”。

然而,被奉为金标准的RCT却是存在许多局限性的——

随机并不自动带来平衡,有时还会造成巨大的偏差;

RCT并不自动证明因果,协变量一旦复杂,RCT就变得捉襟见肘;

绝大多数RCT没有进行双盲,心理因素和选择效应仍然可能起作用;

RCT反映的是特定群体的效果,不能推广到全局;

RCT反映的是“平均疗效”,不一定适用于特定的个体……

并且,即使是最顶级的RCT,也是存在这些偏颇的。

RCT本身并没有错,方法的好坏要取决于你所研究的问题。

但问题是,循证医学的大厦恰恰主要依靠不完全可靠的RCT。

这也就意味着,现代医学系统是存在局限的。

那要如何解决这个问题呢?

一种方法是,建立多元的医学体系。

在寻求因果的的方法上可以多元,比如引入社会学和经济学中的方法。

而在医生的诊疗模型上也可以多元

——医学的证据来源不应局限于指南,而可能应该考虑疾病理论、微观机理和个体机制;医生的经验也可以被拆解成多个维度,包括假设演绎、亚组分析、整体分析和类比推理……

医学最终面对的一个个截然不同却都有血有肉的个体。

机械化的教条注定无法解决所有问题。

我们需要用新的思维方式,去真正地发挥身而为人的价值。

打开APP阅读更多精彩内容