1. 背景

感觉好久没有正经的去研究一个topic了,上次研究一个Juicy的topic(Group Sequential )已经接近1年前了-_-||,人果然还是应该趁着年轻的时候多搞点东西,年纪大了就容易犯懒,什么都不想去做。言归正传,看看这次想补齐哪一块拼图呢?

背景是这样,去年在搞一个确证性临床的试验设计的时候,我初步提了一个sample size re-estimation based on variation under blinded situation,不过后面的讨论环节结合EOP2的实际情况,将疗效的预估降低了一些,老大顺势又说出“I am rich”,所以将这个设计删掉了,所以我在想不如趁机补齐这一块拼图,进而完善一下自己的知识体系。

我想参与过临床试验每一位同学应该都产生过类似的朴素的观念,在临床试验入组到一定受试者的时候,我想知道这个药物的疗效初步看到底怎么样,和我的预期相差多少、能否满足最基本的临床意义,我们要不要继续做下去?有些同学可能会兴冲冲的拿着小本本去找统计师,想立马看到结果,用来指导后续的临床试验?统计师笑眯眯的给你解释了一堆,从一类错误的膨胀讲到监管的考虑,从临床试验完整性扯到GCP,甚至拿出临床试验失败来吓唬你。其实呢,这些朴素的考虑可以转化为专业的术语,又叫做适应性设计,看看来自监管的定义[1]适应性设计允许根据试验期间累积的数据对试验设计进行修改,以修正初始设计的偏差,从而增加试验的成功率,提高试验的效率。当然最重要的是,是要提前在试验设计中明确规定并与监管达成一致。而样本量重估,就是依据临床试验某个时间点收集到的部分信息(如疗效的初步预估或数据变异情况等),在确保试验质量和控制Ⅰ类错误率的前提下,对预先设定的样本量进行重新评估并作出相应调整(通常为增加样本量,以提高统计把握度的一种方法),从而在试验进行过程中动态优化试验设计,提高成功率和资源利用效率。而我今天想讨论的内容就是在基于条件把握度的样本量重估,主要参考的是Mehta C R[2]的这篇文献,下面的正文大部分都是直接来源于文献中。

2. 统计方法

这个方法适用于两组设计,并可针对以正态、二分类及生存终点(以为涵盖了所有嘛?非也,还有recurrent data,这种数据以后再抽时间讲)为疗效指标的多阶段的成组序贯设计。现在我们假设有一个两阶段、两组(试验组和对照组)、终点为正态分布的临床试验的设计,试验组和对照组的终点各自服从X_{ej} \sim N\left ( \mu _{e},\sigma \right ) X_{cj} \sim N\left ( \mu _{c},\sigma \right ) 。疗效的差值则为\delta =\mu _{e}-\mu _{c}(高优指标,比如说是血压较基线的降低值),则有如下的单侧假设检验:

H_{0}:\delta =0

H_{1}:\delta >0

在上面提到的这个临床试验的设计中,我们分别用 图2.1 来代表各个阶段的样本量,如下所示:

图2.1

那么很容易就可以得出:n_{1} +\tilde{n}_2=n_{2}。下面我们用\hat{\delta}_{1} \hat{\delta}_{2} ,和\hat{\tilde{\delta} }_{2} 分别代表对应的n_{1}n_{2}\tilde{n}_2疗效\delta的极大似然估计疗效,那么对应的Wald统计量分别为:

Z_j = \frac{\hat{\delta}_j}{\mathrm{se}\bigl(\hat{\delta}_j\bigr)}, \quad j = 1, 2 \tag{2}
\tilde{Z}_2 = \frac{\hat{\tilde{\delta} }_{2}}{\mathrm{se}\bigl(\hat{\tilde{\delta} }_{2}\bigr)} \tag{3}

2.1 使用加权统计量进行样本量重估

当我们在 图2.1 中所示的节点进行期中分析时,有可能Stage Ⅱ和Final analysis的样本量会增加到如 图2.2 所示:

图2.2

我们分别用n_2^*\tilde{n}_2^*来代表累计样本量与增量样本量。那么根据上面提到的(2)和(3)式,可以得出其对应的统计量分别为:Z_2^*\tilde{Z}_2^*。有学者 Cui et al.[3]提出上述情形可能会导致Ⅰ类错误的膨胀,在其文章中指出无论Stage Ⅱ的样本量如何调整,如果使用CHW 统计量取代传统的Wald统计量Z_2^*,那么可以很好地控制Ⅰ类错误。如下所示:

Z_{2,\mathrm{chw}}^* = \sqrt{\frac{n_1}{n_2}} Z_1 + \sqrt{\frac{\tilde{n}_2}{n_2}} \tilde{Z}_2^* \tag{4}

尽管上式中很好的控制了Ⅰ类错误的膨胀,但是会降低中期分析后才纳入的部分新增受试者的权重(\tilde{n}_2^*>
\tilde{n}_2),在公式(4)中也有体现,即\tilde{Z}_2^*的权重与\sqrt{\tilde{n}_2}成正比,而不是\sqrt{\tilde{n}_2^*}。这与“所有的受试者平等”相矛盾。

2.2 使用传统统计量进行样本量重估

Chen et al.[4]研究表明,当期中分析的结果promising时,增加样本量并不会导致Ⅰ类错误的膨胀。具体而言,令:

\mathrm{CP}_\delta\bigl(z_1, \tilde{n}_2\bigr) = P_\delta\bigl(Z_2 \ge z_\alpha \,\big\vert\, z_1\bigr)\tag{5}

上式代表条件检验效能(conditional power),也就是给定Z_1 = z_1时,在最终分析时拒绝原假设的条件概率为多少。因为\delta未知,所以用\hat{\delta}_{1} 来取代(5)式中的\delta。也就是说,条件检验效能的计算是假设期中分析时估计的疗效为真疗效。Bauer and Koenig[5]给出的计算方式如下:

\mathrm{CP}_{\hat{\delta}_{1} }(z_1, \tilde{n}_2) = 1 - \Phi \left( \frac{z_\alpha \sqrt{n_2} - z_1 \sqrt{n_1}}{\sqrt{\tilde{n}_2}} - \frac{z_1 \sqrt{\tilde{n}_2}}{\sqrt{n_1}} \right) \tag{6}

Chen et al.[4]指出,当满足\mathrm{CP}_{\hat{\delta}_{1}}(z_1, \tilde{n}_2) \geq 0.5时,期中分析增加了样本量后,在最终分析时使用传统的统计量Z_2^*并不会导致一类错误膨胀。Gao[6]等人步进一步深入探讨了这一发现,并将其拓展到当 \mathrm{CP}_{\hat{\delta}_{}}(z_1, \tilde{n}_2)低于 50% 时的情形。至于CP具体能低于 50% 到何种程度,则取决于不同情境的具体设置,将在第 3.2 节中进行量化分析。

3. 一种简单的适应性增加样本量方法

为了能让适应性的调整样本量的方法更好的落地实施,那么需要更为简单、透明、便于理解和稳健的方法,让申办方更易进行操作实施。

3.1 定义适应性算法:一般原则

该方法的关键其实是在于评价期中分析时的CP,如果其过高或过低,那我们没有调整样本量的必要。然而如果CP处于一个期望区间,那么样本量是有可能增加用以使CP达到预设的水平。下表为一些参数的设置:

参数

含义

1−β

样本量增加后应该增加的条件把握度CP的值,一般为80%或90%

n_{max}

允许的可增加的最大样本量,一般由申办方的预算和入组难易度决定

n_2^*

增加后的试验总体样本量

表 3.1

我们将\mathrm{CP}_{\hat{\delta}_{1} }(z_1, \tilde{n}_2)的可能的值分为三个区域:Unfavorable, Promising and Favorable。当CP在不同的区域时,依照下面的指南来进行样本量调整:

  • Unfavorable:当\mathrm{CP}_{\hat{\delta}_{1} }(z_1, \tilde{n}_2)< \mathrm{CP}_{\text{min}}时,定义为 unfavorable zone,此时\mathrm{CP}_{\text{min}}的值可以提前规定(比如30%或50%),也可以通过算法得出(如何计算在 3.2 章节),但通常是一个较低的概率,这一划分隐含着这样的认识:中期结果已经令人相当失望,进一步增加样本量来挽回(提升)条件功效并不值得。在此区域内,样本量无变化。

  • Promising:当\mathrm{CP}_{\text{min}} \leq \mathrm{CP}_{\hat{\delta}_{1} }(z_1, \tilde{n}_2) < 1 - \beta时,定义为promising zone。在这个区域内期中分析的结果虽不至于令人失望,但是也没有好到让CP等于或超过1-β。在这种情形下,样本量可以在不超过nmax的前提下,将样本量恰当地增加,来恢复到预期的把握度1-β。具体而言,那么新的样本量会增加到如下式所示:

    n_2^*(z_1) = \min\left( n_2'(z_1), n_{\text{max}} \right) \tag{7}

    其中n_2'(z_1)满足条件

    \mathrm{CP}_{\delta_1}(z_1, \tilde{n}_2') = 1 - \beta. \tag{8}

    通过简化(5)式子[6],可以容易得出(8)式满足:

    \tilde{n}'_2(z_1) = \left[ \frac{n_1}{z_1^2} \right] \left[ \frac{z_\alpha \sqrt{n_2} - z_1 \sqrt{n_1}}{\sqrt{n_2 - n_1}} + z_\beta \right]^2 \tag{9}

  • Favorable\mathrm{CP}_{\delta_1}(z_1, \tilde{n}_2) \geq 1 - \beta定义为favorable zone。在这个范围内期中分析的结果足够好,不需要对样本量进行适应性的调整。请注意,这一有利区间不仅覆盖了所有\hat{\delta}_1 \geq \delta_1的情形,同时也向下延伸至略小于\delta_1的值;

3.2 论证使用传统最终分析的合理性

在先前的讨论中已经提到当期中分析的CP落在“promising zone”时,使用传统的统计检验可以很好的控制Ⅰ类错误的膨胀。现在主要来探究这个“promising zone”是怎样确立的。

Lemma 1

假设在期中分析时观察的Z_1=z_1,二阶段的样本量从\tilde{n}_2调整到\tilde{n}_2^*。无论用什么公式去计算\tilde{n}_2^*,均有

P_0\left( Z_2^* \geq b(z_1, \tilde{n}_2^*) \right) = \alpha \tag{10}

其中,

b(z_1, \tilde{n}_2^*) = (\tilde{n}_2^*)^{-0.5} \left[ \frac{\sqrt{\tilde{n}_2^*}}{\sqrt{\tilde{n}_2}} \left( z_\alpha \sqrt{n_2} - z_1 \sqrt{n_1}\right) + z_1 \sqrt{n_1} \right] \tag{11}

上式的证明在文献[6]中。请注意,如果样本量没有进行调整,那么\tilde{n}_2^* = \tilde{n}_2Z_2^* = Z_2b(z_1, \tilde{n}_2^*) = z_\alpha

该引理表明,如果在中期分析时调整了样本量,那么在最终分析中仍可以使用传统的统计量Z_2^*进行显著性水平为 \alpha的检验,前提是将界值 z_\alpha​ 替换为b(z_1, \tilde{n}_2^*) 。然而,秉持我们简洁明了的最终分析理念,我们更倾向于使用检验Z_2^* \geq z_\alpha而不是 Z_2^* \geq b(z_1, \tilde{n}_2^*)来拒绝原假设 H0​。为了在不增加第一类错误的情况下实现这一目标,我们将“promising zone”定义为以下集合:

\mathcal{P} = \left\{ \mathrm{CP}_{\delta_1}(z_1, \tilde{n}_2) : b(z_1, \tilde{n}_2^*(z_1)) \leq z_\alpha \right\} \tag{12}

通过式(7)可以得知调整后的样本量\tilde{n}_2^*取决于z_1。请注意promising zone在数据揭盲前就已经定义好了。当在期中分析观察到Z_1=z_1处于\mathrm{CP}_{\delta_1}(z_1, \tilde{n}_2) \in \mathcal{P}中时,我们会将样本量从\tilde{n}_2 增加到\tilde{n}_2^*(z_1)。否则Stage Ⅱ的增量样本量将会保持在\tilde{n}_2 。那么如下所示:

\alpha = P_0(Z_2^*) \geq b(z_1, \tilde{n}_2^*(z_1)) \geq P_0(Z_2^* \geq z_\alpha) \tag{13}

因此可以得出如果我们使用传统的统计量可以很好的控制Ⅰ类错误。

那么如何找到promising zone P呢?有以下几个步骤

  1. 对于给定任意的\mathrm{CP}_{\delta_1}(z_1, \tilde{n}_2) \in (0, 1),根据公式(6)都可以得出具体的z_1

  2. 然后可以根据公式(7)到(9)计算得出增加后的样本量n_2^*(z_1)

  3. 根据1和2中分别得到的z_1n_2^*(z_1),通过公式(11)得到界值b(z_1, \tilde{n}_2^*)

  4. 通过不断的重复1到3中的计算,可以绘制出以\mathrm{CP}_{\delta_1}(z_1, \tilde{n}_2)为X轴,b(z_1, \tilde{n}_2^*)为Y轴的图像。P就定义为在图中低于z_\alpha的部分。

如原文献中的Figure 2所示,如下:

3.3 Stage Ⅰ的有效和无效终止

上述提到的方法可以很容易就推广到两阶段的成组序贯设计中,并且允许在第一阶段前提前终止试验。假定有一个两阶段的、单侧的、显著性水平为α 的成组序贯试验,其包含无效性边界(a1)、疗效边界(b1,b2)以及累计的样本量(n1,n2),并满足:

P_0(Z_1 \geq b_1) + P_0(a_1 < Z_1 < b_1, Z_2 \geq b_2) = \alpha \tag{14}
P_{\delta_1}(Z_1 \leq a_1) + P_{\delta_1}(a_1 < Z_1 < b_1, Z_2 \leq b_2) = \beta \tag{15}

Z_1\geq b_1时,试验会因显著疗效而提前停止;当Z_1\leq a_1时,则因无效性而提前终止。令界值a_2=b_2,可以保证确保试验结束时有一个清晰明确的结论。若Z_2 \geq b_2,则拒绝H_0;否则接受H_0。式(14)确保该成组序贯的一类错误被控制在α,而式(15)保证其检验功效维持在1-β。只要将第3章中的z_\alpha替换为b_2,那么第3章所有结果可沿用。关于成组序贯中界值的计算方法和原理,可以看我原来写的blog:Group-sequential methods in clinical trials(1)

4.小结

该文献[2]中提到了的方法简单易行且较为落地,基于不同的临床试验设计CP可以自动得出各个zone,以便有力的支持样本量调整的决策与调整后的样本量,并能较好的控制Ⅰ类错误。但在我在尝试后续落地实施时可能有以下的问题,a.在使用gsDesign包的ssrCP函数时,因为膨胀因子的存在,其样本量会有略微的增加;b.其提到了三种combination test策略,分别为z2NC, z2Z, z2Fisher,其似乎没有对应到本文献中提到的conventional test(z2Z好像为对应的方法,但是其画出来的图与原文献图中并不完全一样,我已通过WebPlotDigitizer验证,希望是我错了(╥﹏╥))c.关于用哪个消耗函数的问题(SFU)?等有时间再探索一下为什么吧。

5.参考文献

[1] 国家药监局药审中心《药物临床试验适应性设计指导原则(试行)》

[2] Mehta C R, Pocock S J. Adaptive increase in sample size when interim results are promising: a practical guide with examples[J]. Statistics in medicine, 2011, 30(28): 3267-3284.

[3] Cui L, Hung H M J, Wang S J. Modification of sample size in group sequential clinical trials[J]. Biometrics, 1999, 55(3): 853-857.

[4] Chen Y H J, DeMets D L, Gordon Lan K K. Increasing the sample size when the unblinded interim result is promising[J]. Statistics in medicine, 2004, 23(7): 1023-1038.

[5] Bauer P, Koenig F. The reassessment of trial perspectives from interim data—a critical view[J]. Statistics in medicine, 2006, 25(1): 23-36.

[6] Gao P, Ware J H, Mehta C. Sample size re-estimation for adaptive sequential design in clinical trials[J]. Journal of Biopharmaceutical Statistics, 2008, 18(6): 1184-1196.