【原创】非劣效性试验的样本量估算相关疑问解答

2019-02-19 11:43 阅读数：12483 标签：

样本量是临床试验各方人员都非常关心的事情，研究人员关注其可靠性、可重复性，申办方同时还会关注试验的成本。所以为了平衡科学与资源两者的关系，样本量的估算是非常有必要的。医疗器械大多数临床试验会与同类产品进行比较，所以比较类型多采用非劣效。本文将对医疗器械非劣效试验样本量估算相关疑问进行解答。

（一）什么是非劣效性试验？

非劣效性试验是确证试验组的治疗效果如果在临床上低于阳性对照组，其差异也是在临床可接受范围内。

（二）非劣效性试验的样本量估算需要考虑哪些内容？

设计类型

临床试验常见的设计类型有平行设计、交叉设计、析因设计、成组序贯设计等。在医疗器械临床试验中常用平行设计、交叉设计，其中又以平行设计为主。每种设计类型有不同的样本量估算公式、方法和统计学的考虑，比如交叉设计需要考虑滞后效应、成组序贯设计需要考虑α消耗等。

主要评价指标

临床试验的样本量通常是依据对主要评价指标做出相应的假定后进行估计的。方案中主要评价指标的含义、测量方法和时间点、计算方法都应当准确定义，在检索参考资料时应当注意主要指标定义是否与方案一致，避免出现“同名不同义”的情况。比如某方案的“治疗有效率”的评价时间点为干预后2周，随访时间越长治疗有效率越高，但是参考资料中同为“治疗有效率”但评价时间点为干预后3周，如果采用这个参考资料来估算样本量，可能会高估产品的疗效，在其他参数不变的情况下，计算出较少的样本量，最终可能因为把握度不足导致非劣效假设不成立。另外，还需要考虑参考资料产品的功能、性质等是否与本试验产品一致。

大多数情况下主要评价指标一般只有一个，有些临床试验会设计两个或多个主要评价指标，此时需要注意假设检验的多重性问题，考虑调整参数α、β。

效应量

样本量的估算必须要有效应量，通常指组间的均数差值、率的差值或者比值等。效应量建议通过两种方法获取：产品的前期研究和文献资料。

相比起文献资料，前期研究能够比较真实地反映本产品有效性、安全性，试验设计与产品相适应，产品的前期研究通常作为首选方法。

文献资料通常是他人的研究结果，其试验设计、入选人群等方面与产品、方案部分相同，效应量可能存在一些偏倚，所以文献资料通常为次选方法。

非劣界值

详见第（三）点。

统计特征

①检验水准：用α表示，也就是第Ⅰ类错误概率，常取单侧0.025。涉及多重性问题、期中分析时，会考虑对α进行调整。

②检验效能：也叫把握度，用1-β表示，β代表第Ⅱ类错误概率。检验效能是指在设定的α基础上，原假设H0为假且检验结果拒绝了H0的概率。检验效能越高，发现差异的可能性越大，但同时所需样本量也越大。在临床试验中，检验效能不能低于80%。

③平衡或非平衡设计：即组间样本例数的比例，有的临床试验会采用安慰剂对照，此时考虑伦理的因素，安慰剂对照组会入选较少的受试者，试验组会入选较多的受试者。

④脱落率：由以上公式估算出的样本量是在给定条件下满足临床试验所需的最小样本量。在实际试验过程中，由于不良反应、受试者依从性差等原因，会导致受试者脱落。因此，需要在样本量估计的基础上适度地扩大样本量以保证最终的有效样本量可以满足最小样本量的需求。脱落率通常不应超过20%，特殊情况需另外判断。

（三）什么是非劣效界值，非劣效界值如何确定？

非劣界值是判断试验成功与否的关键因素之一。非劣界值应不超过临床上能接受的试验组与阳性对照组的最大差别范围，且应当小于阳性对照药物对安慰剂的有效性试验所观察到的差异。一般来说，非劣界值应当根据阳性对照药与安慰剂比较的meta分析估计置信区间并通过“两步法”计算来确定。在此不详细介绍“两步法”，有兴趣读者可以阅读CCTS在中国卫生统计发表的文章《非劣效临床试验的统计学考虑》。但是医疗器械的实际情况是研究文献较少，或者文献的试验设计、人群不同各有不同，与方案差别较大，难以进行meta分析计算准确的置信区间。当界值难以确定时，有专家建议可酌取1/5-1/2个标准差或对照组均数1/10-1/5；对率而言界值最大不应超过对照组样本率的1/5[1]。非劣界值需要由主要研究者和生物统计学专业人员共同制定，生物统计专业人员可以提出界值的建议，最终由主要研究者从临床角度确定。而且界值一旦确定，不得在研究期间随意更改。

（四）样本量估算举例

计数资料

非劣效性试验两样本率的比较时对照组样本量为：

其中，Z(1-α) 和Z(1-β)表示标准正态分布中对应的1-α和1-β的百分位数。πt和πc分别表示试验组率和对照组率，K为试验组和对照组例数的比值。∆为非劣界值，在非劣效性检验中，如果评价指标是高优指标（数值越大越好），则∆为负数，如果评价指标是低优指标（数值越小越好），则∆为正数。

例如，在一项多中心、随机双盲、平行设计阳性对照的非劣效性临床试验中，估计某对照产品有效率为89%，试验产品的有效率为89%，根据相关参考文献，试验产品与对照产品最多差10%可被接受。设α=0.025（单侧），β=0.20，两组例数之比为1:1，脱落率为20%，则对照组样本量为：

即本临床试验所需总样本量为386例。

计量资料

非劣效性试验两样本均值比较时对照组样本量为：

其中，Z(1-α) 和Z(1-β)表示标准正态分布中对应的1-α和1-β的百分位数。μt和μc分别表示试验组均值和对照组均值，σ为标准差（假设两组标准差相同），K为试验组和对照组例数的比值，∆为非劣界值。

例如，在一项多中心、平行设计、阳性对照的非劣效性临床试验中，试验组和对照组治疗8周后的某量表评分均数均为42.68分，假设两组标准差相同为6.37，设置非劣界值为标准差的1/2。设α=0.025（单侧），β=0.20，两组例数之比为1:1，脱落率为20%，则

即本临床试验所需总样本量为158例。

本文到此就结束了，若有错误，欢迎批评指正！

作者：广州奥咨达医疗器械技术股份有限公司生物统计部

参考文献：

[1]刘玉秀, 姚晨, 陈峰, et al. 非劣性/等效性试验的样本含量估计及统计推断[J]. 中国新药杂志, 2003, 12(5):371-376.

[2]冯国双, 刘德平. 医学实验设计分析与SAS实现[J]. 2014.

[3]陈平雁.临床试验中样本量确定的统计学考虑[J].中国卫生统计,2015,32(4):727-731,733.

[4]邓伟. 临床试验设计与统计分析[M]. 人民卫生出版社, 2012.