我们如何用一篇 COCIR 白皮书，说服审核员接受 MDR 61(10) 路径

2026年01月07日

19 min read

COCIR（European Coordination Committee of the Radiological, Electromedical and Healthcare IT Industry）是代表欧洲放射影像、机电医疗设备及医疗信息技术产业的行业组织，长期参与欧盟医疗器械法规（包括MDR）相关技术与政策讨论，其发布的立场文件和白皮书被广泛用于制造商、公告机构及监管方对复杂合规问题的理解与实践参考，具有较高的行业影响力与专业公信力。

写在前面：本文所有结论与表述均严格来源于COCIR白皮书原文内容与其给出的案例逻辑；我仅以CRO（临床与法规合规服务方）的视角，对其监管含义、证据链构建方法与落地动作进行结构化解读，不引入额外的外部观点或新增事实。

一、这篇白皮书背景与核心主题

白皮书从MDR Article 61(1)与61(10)出发：总体原则是，用“临床数据”提供足够的临床证据来证明器械在预期用途下符合GSPR、评估不良副作用并论证获益-风险比可接受；同时，Article 61(10)允许在特定情况下“仅使用非临床数据”来证明符合GSPR，但前提是制造商必须给出充分论证，且论证应基于风险评估结果、获益-风险概况，并考虑器械与人体相互作用的特性、预期用途以及制造商声明。

白皮书明确指出：61(10)的解释与正确适用在实践中存在不确定性，尤其影响低到中等风险（如IIa）及中到较高风险（如IIb）设备，这些类别并不一定被法规直接强制要求为证明符合GSPR而开展临床试验。该不确定性会引发各方（制造商、公告机构等）之间的争议。

因此，这篇白皮书的目标不是“用非临床数据替代所有临床证据”，而是：为一类特定器械（尤其是部分软件/影像相关设备）展示在初始CE标记与上市后阶段，如何以科学有效的非临床测试与（在特定情形下）回顾性人类数据作为“临床性能测试”的有效路径，并强调必须在PMCF中验证长期假设。

重要边界：白皮书明确不适用于III类和植入物。

二、关键概念：临床数据 vs 非临床数据，以及“回顾性人类数据”的位置

白皮书依据MDR Article 2的定义解释“临床数据”：它是来自医疗器械使用所产生的、关于安全或性能的信息，通常隐含器械在人体（患者或健康志愿者）中使用，来源可以包括临床试验、PMCF研究与其他PMCF数据、上市后监测数据、临床经验报告（如病例研究、同情使用等），既可由制造商生成，也可来源于公开资料（科学文献、警戒数据库等），且可针对被评价器械或已证明等同性的器械。

相对地，“非临床数据”是与安全/性能相关但不涉及患者/健康志愿者的数据，例如工程或实验室测试、动物试验、生物相容性测试、仿体（phantom）研究、使用人工（患者）数据的阅片/读者研究、软件V&V、模拟使用建模等。

白皮书特别强调“回顾性人类数据（retrospective data）”在某些设备中可能成为主要证据体：例如医疗器械软件（MDSW）用于影像后处理或临床决策支持时，可利用既往临床常规形成的诊断影像、健康记录、注册库等作为受控数据池，以获得准确、可靠、可复现的结果。

白皮书给出的回顾性人类数据典型用途包括：

（a）算法训练与验证（研发阶段）
（b）回顾性队列研究用于评估长期性能（PMCF）
（c）评估影像质量，或将新软件输出与其他同用途设备进行相关性对比

三、61(10)并不是“免临床”，而是“换证据形态+强化科学性+PMCF兜底”

从服务制造商与公告机构沟通的CRO视角看，白皮书对61(10)的隐含要求可以被拆解为三条监管逻辑：

1.）证据形态转移：将“临床结局/患者获益”不可直接测量的场景，转化为可测的“性能/图像质量/算法准确性”等代理指标。

2.）科学性门槛抬高：既然要依赖非临床或回顾性数据，就必须证明方法学、测试用例设计与输出具有科学有效性，且可外推到预期临床使用环境。

3.）上市后验证不可缺位：基于非临床数据、等同性器械临床数据、或器械自身临床试验得出的“长期常规使用假设”，必须在PMCF中验证。

白皮书同时提醒：技术发展使得测试环境也在扩展——数字孪生、策展数据库（curated databases）、计算机建模、物理或数字仿体、人工患者生成等，都可能成为受控且科学有效的非临床数据来源。但关键审查点始终是：（i）方法学科学有效；（ii）能否外推到预期临床使用；（iii）是否足以覆盖所有临床相关特性与制造商声明，从而证明符合适用GSPR。

四、五个案例背后的共同结构：把临床评价拆成“用途—获益—风险—技术验证—性能代理—PMCF验证”

白皮书以5个案例展示“基于性能数据开展临床评价”的实践路径，且明确这些案例并不覆盖完整临床评价（仍需符合MDR与适用指南，如MEDDEV 2.7/1 rev.4、以及针对软件的MDCG 2020-1）。

从CRO可复用的角度，5个案例共享同一套写作与论证骨架：

明确预期用途与用户（谁用、用于什么临床环节、输出是什么）
界定临床获益：多为“间接获益”（支持决策/工作流，而非直接治疗或诊断结局）
风险情景化：最严重危害通常来自错误/延迟决策（误诊、延误治疗、错误治疗等）
技术性能先行：引用适用标准完成V&V、可用性、人因工程等
用“代理终点”评估预期临床性能：例如影像质量、分割/检出准确性、ROC、多读者多病例等
将长期有效性与常规使用稳定性放入PMCF中验证（含文献监测、投诉趋势、站点研究、前瞻/回顾PMCF等）

五、逐案深度拆解：白皮书究竟如何“把性能数据写成临床证据”

案例1：通用影像阅片/查看器（Universal Image Viewer，MDSW）

定位：用于企业影像解决方案中的参考与诊断查看，支持多科室数据汇聚与基本影像操作/测量；诊断责任仍在受训医师。

白皮书对“临床获益”采取典型的间接表述：作为工作流支持工具，获益无法用可测的、患者相关结局来表达；输出的临床相关性来自影像质量、合适的工具集（按标准）、医用显示器的定期验证、可预测/准确/可靠的性能，以及降低疲劳、提升阅片表现的UI。

风险：最坏情形是误诊/延误诊断/错误治疗，触发原因包括影像质量不佳、信息不完整/互操作问题、数据损坏/缺失、错误患者/检查或测量不准。风险预期较低的前提是产品满足终端用户需求并按制造商预期工作。

证据策略：由于直接测量临床诊断准确性与对治疗/结局的影响很困难，白皮书提出用“诊断影像质量”作为临床性能代理，并通过面向任务的观察者实验（读者研究）评价；其依据是该领域的现状文献通常采用定量（物理属性）+定性（读者研究）的图像质量评估。

技术与PMCF：软件按IEC 62304与IEC 82304-1完成V&V；可用性按IEC 62366-1；因算法确定性，生命周期内性能不预期变化；PMCF侧重文献监测（临床现状变化）与投诉趋势。

案例2：诊断超声（Ultrasound diagnostic imaging，US）

定位：基于高频声波形成解剖图像/实时运动与血流信息，辅助超声医师进行诊断决策；存在技术固有限制（肥胖患者、空气屏障如肺/肠气影响成像），医护人员最终负责判断图像质量是否足以支持当次决策。

临床获益：白皮书同样将其定义为间接获益——设备不直接实现治疗/诊断结局，而是辅助决策，或在微创操作中辅助其他器械实现其用途。

风险：不使用电离辐射；超声能量潜在生物效应（组织加热、气体形成等），白皮书引用AIUM立场：自上世纪50年代以来，在无造影剂情况下未有独立确认的人体不良效应报告；但仍强调非医疗用途（尤其胎儿超声）应避免。此外，图像质量不足/测量错误/数据缺失会导致错误或延迟决策；耦合剂（超声胶）可能致敏或曾与微生物污染导致严重感染相关；造影超声的风险由相应药品说明书管理。

证据策略：将图像质量作为临床性能代理，并用仿体（phantoms）开展QC/性能评估测试。白皮书详细列出了可通过仿体评价的要素（均一性、灵敏度、几何准确性、对比度/空间分辨率、显示器保真、Doppler与弹性成像等），并区分绝对能力（对可量化标准的重复测量）与相对能力（与代表当前临床现状的设备并行比较）。

技术与PMCF：引用多项超声相关IEC/ISO标准（安全、输出报告、稳定性、仿体方法、生物相容性、可用性等）；PMCF以文献监测与投诉主动监控为主，考虑同一通用器械组的信号与新风险。

案例3：肿瘤治疗规划的临床决策支持软件（Clinical Decision Support for Treatment Planning，MDSW）

定位：多模态平台汇聚病历、实验室与影像信息；利用自然语言处理筛选信息并与癌症评分指数/指南映射，给出治疗路径建议；不做诊断决定，输出需医师在界面上确认或否决。

风险：错误/延迟治疗决策（输入或输出错误/不清晰）、或因系统不可用导致延误。

证据策略分两块：（1）NLP能力：在标准化环境下用策展的人工病历数据库测试语义变体的泛化能力，并与预期值相关；再用特定时间窗内真实患者原始健康数据开展注册研究，评估数据挖掘质量（准确性、可靠性、真实度、精密度），并在不同IT基础设施站点评估输出的数据速率、可用性、保密性、完整性及潜在网络安全漏洞。（2）治疗路径：在模拟使用环境下，用“人工患者”数据集（含正常、异常、不可置信/不完整信息），由不同经验层级读者进行双盲交叉阅读；将输出与指南中定义的标注结果相关，并记录自动与人工决策的time-to-result。

PMCF：由于属于创新技术，采用特定PMCF方法学：选取代表性站点以降低偏倚；软件记录医师对输出的人工更正与time-to-result，并在每次使用后通过界面问卷收集用户经验与性能/安全问题；制造商监控信号并对投诉进行趋势分析。

案例4：基于MR的病灶检出与表征决策支持系统（MR-based lesion detection & characterization，MDSW）

定位：对增强MR影像进行自动分割与定量特征提取，标记疑似肿瘤病灶；不做诊断决定，输出需医师确认/否决。

证据策略：先用4D数字仿体（基于真实CT/MR数据集）构建可控的“真实感解剖模型”，原因是体内定量重建缺乏可比的ground truth（组织差异、灌注动态等导致变异）；在仿体中模拟脑区尺寸、年龄/族群等生理差异，并引入不同大小/形状/配置的人工病灶与不同灌注模式，评价分割与检出能力。随后在回顾性读者研究中，放射科医师对已诊断且组织学确认的肿瘤数据集进行有/无软件辅助的阅读，用多读者多病例的ROC分析比较性能；当使用软件后基于组织学与随访的检出准确性提升，即可证明其有效性。

PMCF：通过参考站点的两臂前瞻性PMCF研究评估常规肿瘤场景下的性能与安全（端点包括一致性、效率、准确性等）；并在代表性站点对医院注册库DICOM数据进行回顾性分析，将AI辅助准确性与随访史信息对照。

案例5：CT体积测量的临床决策支持系统（CT Volumetry CDS，MDSW）

定位：对CT影像进行三维分割与体积分析，面向肿瘤评估/疗效监测，也可用于卒中与肺部疾病；输出与规范数据库对比并提示偏离，可进行纵向记录或回顾性再分析。

证据策略：先用物理4D仿体反复扫描形成标准化数据集，验证在受控环境下对病灶勾画与组织区分的能力；再用基于真实影像数据集的数字仿体模拟解剖变异与运动目标，模拟非球形病灶随时间变化，通过重复测量评价体积测量准确性与检出限，并分析与规范数据库的相关性与预测值。临床敏感度/特异度则通过回顾性研究验证：利用多病种、已标注的DICOM数据集，将软件输出与手工ROI重建/轮廓描记（标准护理）相关。此外，白皮书强调：对不同组织与复杂鉴别诊断要评估临床准确性，需要标准化ground truth，可通过汇聚随访信息与回顾性影像数据库分析获得；而在前瞻性影像研究中往往难以立即获得确认信息。

PMCF：分两阶段。第一阶段为参考站点两臂前瞻PMCF，对比标准护理且不增加侵入/负担；第二阶段开展多中心前瞻PMCF研究：例如随机研究比较卒中结局（复发、功能结局、死亡、存活率、发病率等），以及评估自动CT体积测量能否替代肿瘤分期的半自动标准护理。

六、重点观点提炼：白皮书对企业“临床评价路径”最有用的6个结论

61(10)允许在特定情形下仅用非临床数据证明符合GSPR，但必须以风险评估、获益-风险、人体相互作用特性、预期用途与制造商声明为基础给出充分论证。
非临床数据不是“随便做的工程测试”，而应体现受控、标准化、可复现的科学设计；数字孪生、仿体、建模、人工患者、策展数据库等方法被明确点名为可能的有效路径。
对许多影像/软件类设备而言，直接把“患者结局”当作终点往往不可行；因此将影像质量、算法准确性、读者研究（含ROC）、time-to-result等作为代理终点，是白皮书给出的主流写法。
回顾性人类数据在软件/影像后处理/决策支持场景中被认为是重要证据体，但其价值来自“受控数据池”带来的准确、可靠、可复现结果，而不是因为它“更像临床”。
白皮书一再强调外推：证据必须能覆盖所有临床相关特性与制造商声明，并能外推到预期临床使用环境；否则即使数据量大，也难以支撑结论。
无论初始临床评价如何选择证据形态，基于这些证据形成的长期性能/安全假设必须在PMCF中验证，并以文献监测、投诉趋势、站点研究、前瞻/回顾PMCF等组合落地。

七、CRO落地建议（严格从白皮书逻辑外推到“怎么写/怎么做”）

以下不是新增要求，而是把白皮书在各案例中反复出现的“可审查要素”整理成项目执行清单：

把预期用途写成“可被测试覆盖”的声明：输出是什么、由谁使用、用于哪个临床决策或工作流环节。
把获益表述成“间接获益”时，必须同步给出可验证的性能代理（如图像质量、检出准确性、减少错误/节省时间等可量化指标）。
以危害场景驱动证据：围绕误诊/延误/错误治疗等最坏情形，定义必须被性能数据覆盖的关键性能特性与边界条件。
设计受控测试：优先采用标准化协议与受控环境（仿体、数字仿体、建模、人工患者、策展数据库），建立ground truth并控制偏倚。
用读者研究把“性能”连接到“临床相关性”：多读者多病例、双盲、ROC、对照标准护理/无辅助阅读等，是白皮书反复使用的桥梁。
证明外推与泛化：在模拟语义变体、不同解剖变异、不同IT环境等方面做“情境覆盖”，并明确与预期临床使用环境的一致性。
把PMCF写成验证长期假设的机制：文献监测+投诉趋势+站点研究+前瞻/回顾PMCF，形成闭环。

结语：把61(10)做成“可沟通、可审查、可复现”的证据链

白皮书给企业最重要的启示是：当器械（尤其是影像与软件类）在临床上更多是“支持决策/工作流”，临床评价的关键不在于强行追逐难以量化的患者结局，而在于构建一条可审查的证据链：用受控且科学有效的性能数据覆盖声明与风险，并用PMCF把长期假设落地验证。这条路径并不降低合规门槛，而是把门槛从“是否做临床试验”转移到“方法学是否科学、证据链是否闭环”。

之所以想系统性地分享这篇 COCIR 白皮书，并非出于理论层面的讨论，而是源于真实的法规实务经验。

在科临数据团队过往的几个项目中，正是以这篇白皮书所阐述的核心逻辑与证据构建思路为主要参考框架，结合产品自身的风险特征、预期用途与性能证据，协助企业与审核方进行了多轮深入沟通，最终成功获得美国临床审核员对 MDR Article 61(10) 路径的认可。

这一策略使企业在不降低合规要求的前提下，避免了原本预计投入的大规模临床试验，不仅显著节省了数百万级别的临床研究成本，也大幅缩短了产品上市周期，为企业赢得了关键的时间与资金窗口。

正因这条路径已经在真实监管场景中被验证具备可行性与可参考性，我们才希望将这篇白皮书的核心思想与落地逻辑，系统拆解并分享给更多从事法规注册与临床评价工作的同仁，带来一些思路与思考。

如果需要COCIR白皮书PDF的宝子，请后台回复： COCIR白皮书获取

返回文章列表