从诊断试验角度看深度学习辅助决策医疗器械软件的临床评价

2020-09-24 09:55 阅读数：4225 标签：

　　前言

　　随着5G和云计算技术的逐步应用，深度学习辅助决策软件(以下简称AI软件)得到越来越广泛的应用，特别是2020年新冠肺炎疫情爆发以来，各大优秀的互联网企业相继开发出辅助阅片的AI软件，为防疫工作贡献了一份行业力量。AI软件在影像数据的辅助评阅上有很大的应用潜力，其处理速度快、病灶识别灵敏度高，对阅片经验不足的临床医生能起到很好的辅助作用，特别在面对重大突发的公共卫生事件时，AI软件在影像筛查上具有难以取代的优势。

　　NMPA于2019年7月发布了《深度学习辅助决策医疗器械软件审评要点》，并于2020年8月分别批准了深圳硅基智能科技有限公司及上海鹰瞳医疗科技有限公司生产的“糖尿病视网膜病变眼底图像辅助诊断软件”注册，标志着我国对AI软件的审评和监管上迈出了重要的一步。然而，即使新冠疫情的出现使得AI软件有了一定规模的探索性应用，但具有病灶定位需求的影像辅助决策软件依然未见NMPA批准，鉴于最近笔者遇到了大量关于此类AI软件的临床评价需求，在此与各位读者分享一下我们对AI软件的临床评价思考，以供同行交流。

　　总体思路

　　根据《深度学习辅助决策医疗器械软件审评要点》的要求，AI软件应提交基于临床试验的临床评价资料，从临床试验的角度出发，AI软件的临床试验本质上仍然是一个诊断试验，因此，在试验设计上具有传统诊断试验的相似特征，如上述的AI软件用于糖尿病视网膜病变的诊断，其主要指标均为灵敏度和特异度(具体可参考审评报告：CQZ1900653及CQZ1900668)，而评价结果为简单的的二分类变量，即“患病”或“未患病”，试验设计特征与传统诊断试验基本一致。

　　通过上述例子可知，若AI软件针对的疾病而不涉及病灶的定位要求(如糖网诊断只需要知道患者是否患病就足够了)，则其临床试验的设计较为简单，采用传统的诊断试验设计即可，若AI软件针对的疾病具有病灶的定位要求(如CT影像中的肺结节的识别及定位、内镜影像下对息肉的识别及定位等)，则其临床试验与传统的诊断试验设计将存在一定的差别，包括灵敏度的定义、ROC曲线的绘制、非完美金标准的校正等等，如何合理地评价产品的性能及临床价值，是此类产品临床试验的重点与难点，本文的主题亦是讨论如何评价此类AI软件的临床性能。

　　回顾性临床试验

　　是否能采用回顾性研究进行临床试验是大部分申请人关注的重点之一，回顾性研究是基于现有的评价数据对AI软件的诊断性能进行评价，这种试验设计具有实施容易、成本低廉、试验时间短等优点，因此，回顾性研究是注册申请人最感兴趣的研究设计方式。

　　根据《深度学习辅助决策医疗器械软件审评要点》的要求，对于安全级别为B、A级的中低风险软件，回顾性研究可用作临床预实验或替代临床试验，而安全级别为C级的高风险软件，回顾性研究可作为预实验，为临床试验设计提供参考依据。对于大部分具有病灶定位要求的AI软件(如肺结节筛查、乳腺癌诊断或结肠息肉识别等)，其安全级别多为C级。因此，产品是否能进行回顾性临床试验应优先根据产品的风险级别进行选择。

　　除法规上的考量外，在临床试验的方法学上，回顾性研究还将存在一些难以避免的严重偏倚，包括测量偏倚(如回顾性的患者影像并非采用相同或相似的拍摄参数)、临床参考标准偏倚(如参考标准依赖患者症状、体征、既往手术史等资料，而这些资料均来自于临床病历记录，这些记录在实际情况中可能是不全面甚至矛盾的)、选择偏倚(如临床试验仅选择了具有金标准诊断(如组织活检)的患者作为阳性病例，而接受了金标准诊断的病例往往是严重且典型的，入选人群的疾病谱与预期使用人群的疾病谱可能存在巨大的差别)等。此外，采用回顾性数据还容易存在应用场景的潜在偏倚，例如研究者知道本次试验仅是对患者结果进行重新解释，而不是对患者进行全新的诊断，其心理负担和责任意识不同也将影响其阅片的准确度。因此，采用回顾性研究必须有严格的偏倚控制措施，如采用第三方独立评价等。

　　一般来说，由于回顾性研究存在诸多的固有缺陷，AI软件不推荐采用回顾性研究的方法进行临床评价，但回顾性研究在产品性能评价以及为临床试验作参考时具有重要的价值。

　　另外，笔者在日常工作中遇到了大量境外申请人的注册问询，其尤为关注是否能采用境外临床试验数据进行注册申报，部分境外申请人的临床试验还包含了大量的亚洲人群数据(如韩国、日本、新加坡等)。关于这个问题，《深度学习辅助决策医疗器械软件审评要点》其实有明确的说明。其中，进口软件的研发和验证应当优先考虑人种及流行病学特征，一般来说，临床影像在人种上的差异可能较小，因此境外申请人应优先关注流行病学的问题。这里指的流行病学包括相关疾病的流行病特征(如发病率、不同疾病类型的分布等)、疾病诊断差别(如临床诊断指南的差异等)、不同国家、地区的医疗水平(如影像设备的水平差别)等。对于拟采用境外数据进行申报的申请人，在提交境外数据之前应考虑上述关于流行病学差异的问题，并在提交前积极与NMPA沟通。

　　前瞻性临订试验

　　上文提到，回顾性临床研究作为临床试验资料将存在诸多难以控制的试验偏倚，因此，AI软件的临床试验应优先考虑前瞻性临床研究，尤其是对于具有病灶定位能力的AI软件产品，这些产品的风险级别往往较高。

　　根据《深度学习辅助决策医疗器械软件审评要点》的要求，AI软件的临床试验应基于软件的预期用途、使用场景和核心功能进行试验设计。虽然不同的AI软件针对的疾病类型各不相同，但其试验设计和统计方法大多是类似的，因此，这里优先讨论前瞻性临床试验中的病例选择问题。

　　根据《深度学习辅助决策医疗器械软件审评要点》，入排标准应基于目标疾病的流行病学特征，保证阳性样本和阴性样本选取的合理性和充分性。在实际入选患者的时候，结合产品的特点可选择具有特定特征患者的样本，例如针对肺结节识别的AI软件，可选择需进行肺结节筛查的高危人群(如年龄40岁以上，年吸烟史>20包/年，戒烟<5年等)。

　　采用该方法进行病例入选具有很好的样本代表性，但该方法的入组时间较长，耗费成本可能较高;另一种比较折中入选病例的方法是有针对性地入选患者，由研究者根据患者的体征、症状等综合判断其是否应该接受影像检查，例如某患者具有发热、咳嗽、咳痰等症状，当研究者怀疑其有肺部疾病时，可对将其纳入到某AI软件的临床试验中。该入选病例的方法较有针对性，也是诊断试验中比较流行的一种做法，但为进一步避免选择偏倚，在实施这种入组方法时应在方案中对每一种疾病类型/严重程度的样本量比例进行规定。

　　在评价指标方面，根据《深度学习辅助决策医疗器械软件审评要点》的要求，原则上选择灵敏度、特异度、ROC/AUC等作为主要评价指标。对于针对病灶定位的AI软件，其灵敏度应在病灶水平上进行统计。当临床试验选择用户结合软件联合决策与用户单独决策进行优效对照设计时，可选用ROC/AUC作为主要评价指标。此时研究者需要在没有AI软件辅助的时候单独找出影像上的病灶，并对这些病灶进行5级把握度评分(肯定不是病灶、可能不是病灶、无法确定、可能是病灶、肯定是病灶)，然后再在有AI软件辅助的情形下，重新按上述方法进行病灶评价。需要注意的是，采用此种方法进行评价时应注意阅片的随机顺序，以避免研究者的记忆偏倚，如有可能，建议可在两次阅片之间设置一定的洗脱期。

　　诊断正确的定义应为在正确的位置上识别出正确的病灶。以阅片数据中对每个病灶的5级评分作为截断值，即可建立相应的ROC曲线。常见的曲线绘制方法有定位ROC曲线法(LROC)、因变量自由的ROC曲线法(FROC)及感兴趣区域的ROC曲线法(ROI-ROC)等，其中LROC法要求研究者对图像上的某处至少一个病灶进行把握度评级，然后选出最有可能是病灶的区域，对于同一影像中的多个病灶，多出来的病灶不多加分。因此，该法比较适用于病灶数目不超过1个的情况。对于每例患者病灶数目超过1个的情况，可采用FROC进行评价，此时，曲线的纵坐标为灵敏度(正确定位的病灶比例)，横坐标为每一个个体的平均假阳性数。AI软件的诊断准确度评价的另一种方法是ROI-ROC法，这种方法将检测区域分为有临床意义的ROI，如肺结节检测时的五段肺叶，乳腺癌检测时的左右乳房等，然后要求研究者识别并定位所有的疑似病灶，并对这些病灶进行把握度评分，然后上述评分进行ROI的映射，若真实的病灶被判定为“疑似”，则该处得分就是该ROI的得分，若真实的病灶检测出错(包括没有病灶的地方被判断为是病灶以及病灶定位出错)，则此时的ROI得分为最低的把握度。以上述ROI的不同分级为截断值即可构建ROC曲线，然后采用3级或4级作为截断值即可构建出相应的灵敏度及特异度指标，对AI软件的诊断性能作出综合的评价。

　　需要注意的是，在上述这些临床试验中，同一个病人的多个病灶检测时存在一定的相关性的，在估计灵敏度、特异度及ROC曲线时，应对这种聚类数据进行统计校正，以正确评价产品的性能。

　　总结

　　本文对针对病灶定位类的AI软件的临床试验进行了一些解释及归纳，实际进行这些临床试验时，方案中应有全面的偏倚控制考虑，包括操作偏倚、评价偏倚等。医疗器械临床试验结果的评价应优先采用第三方独立评价的方式。同时，在统计上也应对聚类数据、不完美金标准等进行数学上的校正，以科学、合理地评价产品的临床性能。

　　【文章作者】奥咨达临床中心招仲恒

　　奥咨达医疗是一家全球医疗器械产业服务商，协助政府、园区搭建医疗器械3C产业平台，依托医疗器械注册人制度，加速产品转化加速产品产业化，是政府主导下，培育和扶持医疗器械企业创新创业的重要载体。