首个欧盟临床评价国际标准ISO18969,对企业临床策略的影响?

首个欧盟临床评价国际标准ISO18969,对企业临床策略的影响?

13 min read

ISO/DIS 18969:2025 临床评价标准:怎么和 MDR + MDCG 一起用

一、为什么 ISO 18969 值得你现在就开始研究

ISO/DIS 18969:2025 是一份专门讲“医疗器械临床评价(clinical evaluation)怎么做”的标准草案。它的意义并不是把 MDR 的条文再抄一遍,而是把临床评价拆成一个可执行的流程:从早期研发开始,到上市后持续更新,把你每天在做的“检索、筛选、评价、论证、结论、差距、下一步”这条证据链,用更统一的语言讲清楚。
如果你在 EU MDR 体系下做 CER,会非常熟悉 Article 61 和 Annex XIV 的要求。18969 的价值在于:
  1. 它把“临床评价必须贯穿全生命周期”落到流程图和责任分工上。
  2. 它强调用“可量化/可验证”的方式定义临床获益与评价标准(outcome parameters + evaluation criteria),把很多争论点前移到计划阶段。
  3. 它把近几年行业绕不开的新东西(比如软件/AI、数字证据、真实世界数据、偏倚控制)放进同一个框架里,给你一个可解释、可追溯的写法。

二、标准的框架:18969 到底在讲一个什么流程?

18969 把临床评价拆成 6 个“模块”,并强调这是一个迭代过程:计划—执行—总体评估—结论—补充活动—更新。它还特别提醒:并不是每个要求都适用于所有器械和所有阶段,关键在于你要能把“为什么这么做/为什么不做”说清楚。

1)从目标说起:临床评价要回答的 4 个问题

  • 安全性:有没有新的危害、危害情景或伤害?临床数据能不能支撑风险管理文件里对残余风险的估计?
  • 临床性能/有效性:器械是否达到宣称的临床性能或有效性,且能带来临床获益?
  • 获益-风险:把获益放到“标准治疗/同类技术/替代方案”的背景里,权衡后是否仍然可接受?
  • 证据是否够用:如果不够,差在哪,下一步要补什么(临床研究、PMCF、更多 RWD、更多非临床等)?

2)“可执行”的关键:先把评价标准定下来

18969 在计划阶段就要求你把“临床结局参数(clinical outcome parameters)”和“评价标准(evaluation criteria)”定义出来:也就是你准备用哪些指标来证明安全与性能/有效性、每个指标达到什么水平算“合格”。
这件事看似简单,但它能解决临床评价里最常见的两种痛:
  • 痛点 A:CER 写到最后才发现“证据讲不进同一个逻辑框架”,因为一开始没有把指标与阈值说清楚。
  • 痛点 B:NB/专家组问你“你凭什么说这就够了”,你只能回到“业内一般做法”,但缺少可追溯的依据。
在 18969 的语境里,评价标准不是凭空拍脑袋,而是要从“可得的知识(available knowledge)”里推导出来:包括标准治疗、指南、同类/相似器械、其他治疗/诊断方案的真实表现与风险谱。

3)“available knowledge”不是走形式:它要你把“参照系”搭出来

很多团队做 SOTA/available knowledge 时容易把它做成“文献综述”。18969 的角度更像“临床参照系搭建”:你需要识别同一适应症/同一目标人群下的医疗与非医疗替代方案,并总结它们的优缺点、临床获益和风险,从而把 DUE(device under evaluation)要达到的安全与效果水平说清楚。
它还明确提醒:标准治疗会随地区变化;指南质量参差不齐,引用前要确认是否适用于你的使用场景。

4)数据源的“清单化”:把你手里的证据都“亮剑”出来

18969 把数据源分成两大块:
  • 用于“available knowledge”的数据源(文献数据库、临床试验注册、指南、HTA、产品标准、不良事件数据库等);
  • 用于“DUE 本体”的数据源:非临床(验证确认、动物、可用性、人因、仿真、数字证据等)+ 临床(研究、上市后、RWD、投诉/警戒、第三方数据等)。
有两个信号很值得注意:
  • 它把“数字证据/计算建模/AI 分析”明确写进临床证据的语境里,但前提是你能证明其相关性与有效性---这点就与新MDR草案对Articel 61-10 更新的内容高度契合。
  • 它把“社交媒体/患者反馈”等也列为可选来源(当然,能不能用、怎么用,最终还得回到可验证性和偏倚控制)。

5)评价(appraisal)不是一句“质量好/一般”:要预先定义标准并做权重

18969 对 appraisal 的要求很明确:要系统、客观、按预先定义的标准执行,并且要说明你如何对不同数据集进行“分类/加权”。
这背后的核心是:临床评价不是把所有数据简单相加,而是要解释“为什么某一类证据更能支撑某个结论”。例如,同样是临床数据:随机对照研究、前瞻性队列、回顾性真实世界、病例系列,它们对不同结论的支撑力度不一样,你必须在方法学上把这个差异说清楚。

6)结论必须“可落地”:承认局限、明确差距、给出行动

18969 花了不少篇幅讲“limitations(局限性)”与“additional activities(补充活动)”:
  • 局限性不只是“样本量小、随访短”这种套路话,而是要评估其临床相关性,并决定是否需要行动。
  • 行动选项包括:补充临床研究/PMCF、补充非临床、修改设计、调整宣称??、调整 IFU/标签等。
这其实是在引导我们把 CER 写成一个整个合规文件的决策文件,而不是“为了过审而写的一份交作业的Report”。

三、18969 给出的几个“强信号”:未来临床评价会更看重什么?

  1. 把临床评价前移到研发早期:标准明确要求临床评价活动在设计开发早期就开始,并与设计开发、风险管理、临床开发、监管策略、PMS 强耦合。--这点科临数据高度赞同👍。
  2. 更强调“临床获益”要用患者相关结局来表达:不只是性能指标本身,而是它如何带来对患者有意义的结果。
  3. 更强调“替代方案/标准治疗”的参照系:你的证据不是在真空里评估,而是在“现在的医学实践”里被比较。
  4. 对“可转移性/可比性”更务实:标准使用“transferability/ comparable device”的概念,不直接绑定 EU 的 equivalence 术语,但要求你提供科学论证。
  5. 把“偏倚控制”和“可复现性”摆到台面上:尤其是文献检索、筛选、排除、偏离计划,都要可追溯。
  6. 更新机制更像“信号监测”而不是定期写报告:更新触发因素包括新风险、性能趋势变化、设计变更、制造变更、法规变化、公开信息变化等。

四、怎么把 18969、MDR 和 MDCG 放在同一个篮子里权衡?

1)先分清角色:谁是“法律”,谁是“方法”,谁是“口径”

  • MDR(Regulation (EU) 2017/745):法律文本,规定“必须达到什么要求”--基本门槛。例如 Article 61、Annex XIV(临床评价)以及 GSPR 对获益-风险、性能、安全的要求。
  • MDCG 指南:在 MDR 之下给出执法/评审层面的解释与一致做法,是 NB 审评时非常现实的“口径来源”--作业指导书
  • ISO 18969:更像一套“方法学说明书”。它告诉你:如何把临床评价组织成一个可审计、可复现、可沟通的过程。

2)一个实用的使用顺序:从“法规问题”倒推“标准方法”

建议你用“问题驱动”的方式把三者串起来:
第一步:用 MDR 把问题列出来
  • 你的器械在其预期用途和目标人群中,是否有足够的临床证据证明符合 GSPR?
  • 如果想用等同/等效数据,是否满足 MDR 对 equivalence 的要求?
  • 上市后你如何持续更新临床评价?
第二步:用 MDCG 把 EU 评审的关注点固定下来
- 比如 equivalence 怎么论证(MDCG 2020-5)、legacy device 的“足够临床证据”怎么讲(MDCG 2020-6)、NB 的 CEAR 模板会怎么问你(MDCG 2020-13)。
第三步:用 18969 把方法学做扎实
  • 文献检索怎么设定问题、怎么做可复现的检索与筛选;
  • appraisal 怎么预定义标准与权重;
  • analysis 怎么围绕 outcome parameters + evaluation criteria 做论证;
  • 局限性如何驱动“下一步证据生成计划”。

3)别把 18969 当成“替代 MDR 的新条文”

18969 的 Annex ZA 也说得很直白:它旨在支持 MDR Article 61 与 Annex XIV Part A 的部分要求,但因为它不绑定某个监管体系,所以很多EU 特有的要求(例如 PMCF 计划、PMS 计划、SSCP 等)。
所以更合理的定位是:
  • MDR = 你必须证明什么;
  • MDCG = EU 审评会怎么问;
  • 18969 = 你用什么方法把证据链做得更“经得起盘问”。

五、从企业实践出发:标准正式生效前,建议做的 10 件准备工作

  1. 做一次“临床评价体系体检”:把现有 CER、CEP、PMS/PMCF、RMF、标签宣称矩阵放在一起,检查证据链是否闭环(宣称→结局指标→证据→结论→风险控制/信息传递)。
  2. 把临床评价纳入 QMS 程序:明确版本控制、接口文件清单、跨部门评审节点(研发/医学/注册/质量/警戒)。
  3. 建立“可复现的检索”模板:检索问题(PICO 等)、数据库选择、检索式、时间范围、语言、筛选/排除规则、PRISMA 流程图输出。
  4. 建立 appraisal 量表与加权逻辑:把“相关性/可转移性”和“方法学质量/偏倚风险”拆开评估,并定义不同数据类型的权重规则。
  5. 把“替代方案/标准治疗”做成长期维护的知识库:不是每次 CER 临时抱佛脚,而是像竞品情报一样持续更新。
  6. 把临床获益说成“患者看得懂的结局”:尽量把性能指标翻译成患者获益或临床决策获益(尤其是诊断/管理类器械)。
  7. 为“可转移性/可比性”准备一套论证框架:技术/生物学/临床三维度的差异影响怎么评估,哪些差异会造成“临床显著差异”。
  8. 把 RWD 与 PMS 数据治理做起来:数据来源、质量、缺失、偏倚、统计方法、信号检测阈值、触发更新机制,最好提前形成 SOP。
  9. 针对软件/AI 的特殊点单独建章:版本迭代、训练数据漂移、网络安全更新、性能监测指标,如何映射到临床评价的“更新触发条件”。
10. 培训与“角色清晰化”:18969 明确要求参与/评审团队具备研究方法学、信息检索、法规、医学写作、临床与技术知识等能力。企业应把这些能力要求写进岗位与外包管理里。

六、写给审核老师看的,也写给自己看的:一份“扛打”的 CER 长什么样?

如果把 18969 的 Annex A 当成一个“目录参考”:
  • 把产品与宣称讲清楚:适应症、人群、使用环境、禁忌、警告、预期寿命、与其他产品联用等。
  • 把方法讲清楚:检索怎么做、数据怎么筛、质量怎么评、怎么加权、怎么分析。
  • 把决策讲清楚:结论是什么,局限是什么,差距是什么,下一步要补什么,以及这些如何回写到风险管理、标签、PMS/PMCF。
当你按这个思路写,CER 会更像“技术与临床证据的耦合链”,而不是“叙述性综述”。

七、最后的提醒:别等“正式生效”才动手

18969 目前还是 DIS(草案)阶段,后续内容可能调整。但对企业来说,最值得提前做的并不是“逐条对照逐字执行”,而是把它背后的方法学能力补齐:
  • 可复现的检索与筛选;
  • 可解释的 appraisal 与加权;
  • 以 outcome parameters + evaluation criteria 为中心的论证;
  • 生命周期化的更新机制与信号监测。
这些能力一旦建立,不管最终条文微调如何,你都会发现:写 CER 更快、被问问题更少、团队协作更顺。
最后,扔出一个问题,尝试引发我们的思考,在今后的欧盟临床评价的工作中,规则制定方,NB审核方,企业,咨询方共同探讨磨合的一个话题是:我们该如何应对和权衡MDR,MDCG,ISO8969, MDR新草案,EU2025/2086之间的一个关系和侧重,这么多条路如何在实践中通往经得起考验的“罗马王国”-- CER??
最后,如需获取ISO18969 PDF 全文的宝子,请在后台回复:ISO18969, 自动获取~

附:本文引用的主要来源

  • ISO/DIS 18969:2025(en) Clinical evaluation of medical devices(草案全文)
  • Regulation (EU) 2017/745(MDR)Article 61、Annex XIV 等
  • MDCG 2020-5(equivalence)、MDCG 2020-6(sufficient clinical evidence for legacy devices)、MDCG 2020-13(CEAR template)等