什么是非劣效试验(Non-inferiority Trials)

在一段感情中,女孩子总是在重复的、不间断的询问自己对象一个问题:

😭你到底爱不爱我?”

而光大的鸡贼男同胞们总是这样回答:

🙃我不是不爱你。”

其实这是一个值得玩味的答案,其并没有比“我爱你”感情更为强烈,但其又在语义上否定“不爱你”这个选项,那么我们有理由相信,确实存在这么一个中间态,而我们今天所讲的非劣效试验,就是这一种类似中间态的试验设计。

首先,让我们来看看FDA对于非劣效试验的定义[1]

The intent of an NI trial, however, is not to show that the new drug is equivalent, but rather that it is not materially worse than the control. Therefore, the interest is one-sided.

再来看看CDE对于非劣效试验的定义[2]

非劣效试验是为了确证试验药的临床疗效,即使低于阳性对照药,但其差异也是在临床可接受范围之内。

OK,到这儿你应该对于非劣效试验有一个初步的概念,那么让我们继续。

统计学假设

对于统计师来讲,在面对在药企工作时的临床问题时,我们要将其转化为统计学语言,而首当其冲的写出关注临床问题的统计学假设,那么在面对不同终点的临床试验时,一般我喜欢参考夏结来老师的这篇文献[3]中所列的表1:

指标类型

差值(率差,均数差)

比值(RR,HR,OR)

高优指标

H0:C-T≥Δ,Δ>0

H1:C-T<Δ

H0:ln(C/T)≥Δ,Δ>0

H1:ln(C/T)<Δ

低优指标

H0:T-C≥Δ,Δ>0

H1:T-C<Δ

H0:ln(T/C)≥Δ,Δ>0

H1:ln(T/C)<Δ

检验水准

α=0.025

此类假设检验有一个特点,即其∆(也就是我们后面要介绍的非劣效界值M2)永远>0,那么此假设检验就变得较好理解(起码对于我来说是这样):

对于高优指标,比如有效率(二分类指标)来说,其假设检验含义如下,C代表阳性对照药,T代表的试验药,如果C的有效率超出了T太多,即H0成立;如果C的有效率没有超出T太多,即H1成立。对于比值同理。

对于低优指标,比如死亡率(二分类指标)来说,其假设检验的含义如下,如果T的死亡率超过了C太多,即H0成立;如果T的死亡率没有超出C太多,即H1成立。

notes:

  1. 此表所代表的假设检验只是一般的书写形式,你完全可以将∆设置为负值,但是如何书写不满足一般规则,小心招来老板的白眼😒。

  2. 记得在方案中书写正式的假设检验时前面增加一定的标记,如均值为μ,比例为π,并在恰当的增加其下标。

好的,那么下面我们具体来介绍如何确定Δ,即通常我们所说的界值M。

界值(Margin)

在临床实践中,确定非劣效界值M2是一件困难但是十分重要的事情,因为其不仅关系到我们前期的样本量计算,还是该试验成功与否的金标准。我们都知道,样本量计算的参数理应由医学提供(因为一般来说,医学同事参与了该产品的立项、方案的设计、了解了该产品的机制、对该产品疗效有一个初步的预估)。但是如果我们直接告诉临床的小伙伴,需要一个叫做非劣效界值M2的东西,对于临床的小伙伴来说,肯定是一脸懵逼的状态,而在短短的碰头后听你热心的解释什么是非劣效界值M2后呢,临床小伙伴可能会不禁发出了哲学三问,我是谁?我在哪儿?我要去哪儿?

所以呢,M2的确定统计师也有着相当一部分负责引导和解释任务,引导着医学同事得出基于科学准则的非劣效界值M2,这也是我理想中的合作模式(P.S. 在此怀念我在老东家时的一位MM同事,与她共事是我职业生涯中最快乐的时光)。

固定界值法(Fixed Margin)

对照及M1的确定

读到这里,可能有的小伙伴不禁困惑,对照不是已经选好了吗,不就是阳性对照药吗?非也非也,此“对照”指的是“对照的对照”,即阳性对照既往开展的临床试验中所使用的对照。一般来说,这个对照是安慰剂,像是FDA guideline[1]里面提到的关于界值选择时的说明:

One choice for M (the largest possible value) is to set it equal to the entire known effect of the active control relative to placebo, based on past randomized controlled trials.

我们再来看看CDE[2]是怎么说的:

通常阳性对照药相对于安慰剂的疗效差异来源于已知的、具有良好设计和实施的临床试验结果。根据这些既往试验,在充分考虑不同试验结果变异程度的基础上,可以估计出较为可靠的阳性对照药相对于安慰剂的疗效差异,该疗效差异是非劣效试验中用于确定非劣效界值的关键参数。

FDA还是留有余地的,其措辞用的是One choice,而CDE直接默认了阳性对照药既往疗效的证据就是其与安慰剂的疗效对比。那么此时有一个bug不知道大家发现了没有,如果你既往阳性对照药的临床试验不是安慰剂对照怎么办?比如在实体瘤的适应症中,其对照是标准化疗该何去何从,暂时别慌,请听我娓娓道来。

先来确定M1,即在非劣效试验中阳性对照保留的最大的可能疗效,假如M1为阳性对照药相对于安慰剂对照的的疗效估计,基于保守原则,假设主要终点为高优指标且C-P的95%CI为(a,b),那么哪一个才是阳性对照药的保守的疗效估计呢?答案a,这也意味着阳性对照药的疗效有97.5%的概率大于等于a,我们将这个a记作M1。

回到刚才那个bug,如果此时为同一个阳性对照药同终点,但是其对照并非安慰剂而为标准治疗,则C-S的95%CI为(a',b‘),那么此时a’为阳性对照药的保守的疗效估计,记作M1‘。那么很容易得出M1’<M1的,因为阳性对照药相对于标准治疗而言,其疗效并没有与安慰剂的差距大,所以M1'<M1。我们再回到刚才的假设检验中,令M1=Δ。有如下的推导:

H_{1} :C-T<Δ (1)

H_{1}:T-P>C-P-Δ>0 (2)

只可以得出试验药优效于安慰剂。如果令M1'=Δ,那么就可以得出:

H_{1}:T-S>C-S-Δ>0 (3)

那么就可以得出试验药优效于标准治疗。在这儿留2个问题供大家思考,

1.哪种方式需要的样本量更多呢?

2.能不能拿M1作为试验成功的标准?

M2的确定

先回答上面提到的第1个问题,如果将M1作为试验成功的标准,即Δ假设在该适应症的治疗领域这几年来没有任何进步,我们只能得出试验药优效于安慰剂的结果,想想这个结果吧,你采用阳性对照的设计,但是最后只得出了一个试验药优效于安慰剂的结果,从结果上来说是失败的,这意味着你不仅花费了更多投入来购买阳性对照药,而且有悖于设计中非劣效的含义,所以呢,我们一般会取一个小于M1的值作为非劣效成功的标准,即M2,那么M2该如何计算呢?

OK,假设我们参考的M1为阳性对照药和安慰剂对照药疗效的保守估计,假设其为高优指标,如ORR,则取C-P率差置信区间的下限作为M1,若取M2=(1-f)M1,0<f<1,令Δ=M2,那么将其带入(2)式,则有:

H_{1}:T-P>M_{1} -(1-f)M_{1} >0 (4)

H_{1}:T-P>fM_{1} >0 (5)

其中M1代表的是C-P的疗效的保守估计,那么f就代表了试验药T相对于阳性对照C来说,保留了其f的疗效,如果我们取f=0.5,则至少保留了了阳性对照疗效的50%。那么换一种说法,其实f代表的是试验药相对于安慰剂疗效的差距是阳性对照药和安慰剂差距的0.5倍。

想到了2000年春晚的小品《钟点工》里面的台词:

要把大象装冰箱,总(lǒng)共分几步?

哈哈哈哈,三步。第一步,把冰箱门打开,第二步,把大象装进去,第三(sán)步,把冰箱门带上。

那么,简单总结一下,根据固定界值法得出非劣效界值M2呢?

第一步:找到阳性对照药相对于安慰剂的疗效预估置信区间,对于安慰剂来说,一般为95%CI;但是如果是阳性对照药相对于标准治疗,可以适当的放宽,如70%CI*。

第二步:对于高优指标如ORR,或低优指标3年死亡率,分别取置信区间的下限或上限作为疗效的保守估计,即M1。

第三步:确定试验药保留了阳性对照药的疗效f,如果为差值指标,取M2=(1-f)M1,如果为率比,则有两种方式,一为指数法M2=exp(1-f)*ln(1/M1);二为直接法M2=(1-f(1-M1))/M1。具体的率比计算M2方法的优劣,可参考陈婷婷等人的文章[4]

*有几个生物等效的相关的例子可参考,如国内监管发布的[5][6]两篇指导原则,不过这两篇等效性研究一般均为生物类似物,放在创新药的非劣效上面是否可以类推呢?还有这两篇指导原则是针对生物类似物的,试验设计基本上是嚼碎了喂给你的,所以还是不要充分参考。

综合法(Synthesis Methods)

简单来说呢,综合法不会设定M1和M2,其对于试验药相对于阳性药的非劣效的统计学推断的统计量计算来源于历史研究(如:阳性对照药和安慰剂)和本研究的合并值,其公式可见FDA和CDE的指南[1][2]。关于具体的例子,大家可以参考地舒单抗相对于唑来膦酸在骨转移骨痛适应症上的Ⅲ非劣效试验的设计,其就使用了综合法[7]

总结

总之呢,关于非劣效界值的讨论,暂时就到这里……

既然决定了是非劣效试验,那么就意味着会选择该适应症现阶段的标准治疗,如果为该领域的明星产品,那么依靠该产品的“锚定”与头对头的试验设计,是不是在上市后有更好的销售预期?反而言之,如果基于现有的伦理要求和监管指南,对于一个确证性临床Ⅲ期,我们可以选择安慰剂对照或阳性对照均可,作为临床开发部门,都知道选择安慰剂对照的优效设计成功率会高于阳性对照非劣效设计?有没有必要冒险呢?感觉会是个有趣的药物经济学问题。

参考文献

  1. FDA. Non-Inferiority Clinical Trials to Establish Effectiveness Guidance for Industry. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/non-inferiority-clinical-trials

  2. 国家药监局药审中心. 《药物临床试验非劣效设计指导原则》. https://www.cde.org.cn/main/news/viewInfoCommon/322593ac8e690e63730fc63acd1ecba4

  3. 夏结来. 非劣效临床试验的统计学考虑[J]. 中国卫生统计, 2012, 29(2): 270-274.

  4. 陈婷婷, 李新旭, 欧春泉. 基于相对度量指标的非劣效界值计算方法的比较[J]. 中国卫生统计, 2020, 37(2): 174-176.

  5. 国家药监局药审中心. 《贝伐珠单抗注射液生物类似药临床试验指导原则》.
    https://www.cde.org.cn/main/news/viewInfoCommon/4bd87dc1a83c64ca8d8df387f14dd1dd

  6. 国家药监局药审中心. 《帕妥珠单抗注射液生物类似药临床试验指导原则》.
    https://www.cde.org.cn/main/news/viewInfoCommon/3695aebd6e6b1eac7e22405ae815fbca

  7. FDA. https://www.accessdata.fda.gov/drugsatfda_docs/review/2018/125320Orig1s007.pdf