首个欧盟临床评价国际标准ISO18969，对企业临床策略的影响？

2026年01月16日

13 min read

ISO/DIS 18969:2025 临床评价标准：怎么和 MDR + MDCG 一起用

一、为什么 ISO 18969 值得你现在就开始研究

ISO/DIS 18969:2025 是一份专门讲“医疗器械临床评价（clinical evaluation）怎么做”的标准草案。它的意义并不是把 MDR 的条文再抄一遍，而是把临床评价拆成一个可执行的流程：从早期研发开始，到上市后持续更新，把你每天在做的“检索、筛选、评价、论证、结论、差距、下一步”这条证据链，用更统一的语言讲清楚。

如果你在 EU MDR 体系下做 CER，会非常熟悉 Article 61 和 Annex XIV 的要求。18969 的价值在于：

它把“临床评价必须贯穿全生命周期”落到流程图和责任分工上。
它强调用“可量化/可验证”的方式定义临床获益与评价标准（outcome parameters + evaluation criteria），把很多争论点前移到计划阶段。
它把近几年行业绕不开的新东西（比如软件/AI、数字证据、真实世界数据、偏倚控制）放进同一个框架里，给你一个可解释、可追溯的写法。

二、标准的框架：18969 到底在讲一个什么流程？

18969 把临床评价拆成 6 个“模块”，并强调这是一个迭代过程：计划—执行—总体评估—结论—补充活动—更新。它还特别提醒：并不是每个要求都适用于所有器械和所有阶段，关键在于你要能把“为什么这么做/为什么不做”说清楚。

1）从目标说起：临床评价要回答的 4 个问题

安全性：有没有新的危害、危害情景或伤害？临床数据能不能支撑风险管理文件里对残余风险的估计？
临床性能/有效性：器械是否达到宣称的临床性能或有效性，且能带来临床获益？
获益-风险：把获益放到“标准治疗/同类技术/替代方案”的背景里，权衡后是否仍然可接受？
证据是否够用：如果不够，差在哪，下一步要补什么（临床研究、PMCF、更多 RWD、更多非临床等）？

2）“可执行”的关键：先把评价标准定下来

18969 在计划阶段就要求你把“临床结局参数（clinical outcome parameters）”和“评价标准（evaluation criteria）”定义出来：也就是你准备用哪些指标来证明安全与性能/有效性、每个指标达到什么水平算“合格”。

这件事看似简单，但它能解决临床评价里最常见的两种痛：

痛点 A：CER 写到最后才发现“证据讲不进同一个逻辑框架”，因为一开始没有把指标与阈值说清楚。
痛点 B：NB/专家组问你“你凭什么说这就够了”，你只能回到“业内一般做法”，但缺少可追溯的依据。

在 18969 的语境里，评价标准不是凭空拍脑袋，而是要从“可得的知识（available knowledge）”里推导出来：包括标准治疗、指南、同类/相似器械、其他治疗/诊断方案的真实表现与风险谱。

3）“available knowledge”不是走形式：它要你把“参照系”搭出来

很多团队做 SOTA/available knowledge 时容易把它做成“文献综述”。18969 的角度更像“临床参照系搭建”：你需要识别同一适应症/同一目标人群下的医疗与非医疗替代方案，并总结它们的优缺点、临床获益和风险，从而把 DUE（device under evaluation）要达到的安全与效果水平说清楚。

它还明确提醒：标准治疗会随地区变化；指南质量参差不齐，引用前要确认是否适用于你的使用场景。

4）数据源的“清单化”：把你手里的证据都“亮剑”出来

18969 把数据源分成两大块：

用于“available knowledge”的数据源（文献数据库、临床试验注册、指南、HTA、产品标准、不良事件数据库等）；
用于“DUE 本体”的数据源：非临床（验证确认、动物、可用性、人因、仿真、数字证据等）+ 临床（研究、上市后、RWD、投诉/警戒、第三方数据等）。

有两个信号很值得注意：

它把“数字证据/计算建模/AI 分析”明确写进临床证据的语境里，但前提是你能证明其相关性与有效性---这点就与新MDR草案对Articel 61-10 更新的内容高度契合。
它把“社交媒体/患者反馈”等也列为可选来源（当然，能不能用、怎么用，最终还得回到可验证性和偏倚控制）。

5）评价（appraisal）不是一句“质量好/一般”：要预先定义标准并做权重

18969 对 appraisal 的要求很明确：要系统、客观、按预先定义的标准执行，并且要说明你如何对不同数据集进行“分类/加权”。

这背后的核心是：临床评价不是把所有数据简单相加，而是要解释“为什么某一类证据更能支撑某个结论”。例如，同样是临床数据：随机对照研究、前瞻性队列、回顾性真实世界、病例系列，它们对不同结论的支撑力度不一样，你必须在方法学上把这个差异说清楚。

6）结论必须“可落地”：承认局限、明确差距、给出行动

18969 花了不少篇幅讲“limitations（局限性）”与“additional activities（补充活动）”：

局限性不只是“样本量小、随访短”这种套路话，而是要评估其临床相关性，并决定是否需要行动。
行动选项包括：补充临床研究/PMCF、补充非临床、修改设计、调整宣称？？、调整 IFU/标签等。

这其实是在引导我们把 CER 写成一个整个合规文件的决策文件，而不是“为了过审而写的一份交作业的Report”。

三、18969 给出的几个“强信号”：未来临床评价会更看重什么？

把临床评价前移到研发早期：标准明确要求临床评价活动在设计开发早期就开始，并与设计开发、风险管理、临床开发、监管策略、PMS 强耦合。--这点科临数据高度赞同👍。
更强调“临床获益”要用患者相关结局来表达：不只是性能指标本身，而是它如何带来对患者有意义的结果。
更强调“替代方案/标准治疗”的参照系：你的证据不是在真空里评估，而是在“现在的医学实践”里被比较。
对“可转移性/可比性”更务实：标准使用“transferability/ comparable device”的概念，不直接绑定 EU 的 equivalence 术语，但要求你提供科学论证。
把“偏倚控制”和“可复现性”摆到台面上：尤其是文献检索、筛选、排除、偏离计划，都要可追溯。
更新机制更像“信号监测”而不是定期写报告：更新触发因素包括新风险、性能趋势变化、设计变更、制造变更、法规变化、公开信息变化等。

四、怎么把 18969、MDR 和 MDCG 放在同一个篮子里权衡？

1）先分清角色：谁是“法律”，谁是“方法”，谁是“口径”

MDR（Regulation (EU) 2017/745）：法律文本，规定“必须达到什么要求”--基本门槛。例如 Article 61、Annex XIV（临床评价）以及 GSPR 对获益-风险、性能、安全的要求。
MDCG 指南：在 MDR 之下给出执法/评审层面的解释与一致做法，是 NB 审评时非常现实的“口径来源”--作业指导书。
ISO 18969：更像一套“方法学说明书”。它告诉你：如何把临床评价组织成一个可审计、可复现、可沟通的过程。

2）一个实用的使用顺序：从“法规问题”倒推“标准方法”

建议你用“问题驱动”的方式把三者串起来：

第一步：用 MDR 把问题列出来

你的器械在其预期用途和目标人群中，是否有足够的临床证据证明符合 GSPR？
如果想用等同/等效数据，是否满足 MDR 对 equivalence 的要求？
上市后你如何持续更新临床评价？

第二步：用 MDCG 把 EU 评审的关注点固定下来

- 比如 equivalence 怎么论证（MDCG 2020-5）、legacy device 的“足够临床证据”怎么讲（MDCG 2020-6）、NB 的 CEAR 模板会怎么问你（MDCG 2020-13）。

第三步：用 18969 把方法学做扎实

文献检索怎么设定问题、怎么做可复现的检索与筛选；
appraisal 怎么预定义标准与权重；
analysis 怎么围绕 outcome parameters + evaluation criteria 做论证；
局限性如何驱动“下一步证据生成计划”。

3）别把 18969 当成“替代 MDR 的新条文”

18969 的 Annex ZA 也说得很直白：它旨在支持 MDR Article 61 与 Annex XIV Part A 的部分要求，但因为它不绑定某个监管体系，所以很多EU 特有的要求（例如 PMCF 计划、PMS 计划、SSCP 等）。

所以更合理的定位是：

MDR = 你必须证明什么；
MDCG = EU 审评会怎么问；
18969 = 你用什么方法把证据链做得更“经得起盘问”。

五、从企业实践出发：标准正式生效前，建议做的 10 件准备工作

做一次“临床评价体系体检”：把现有 CER、CEP、PMS/PMCF、RMF、标签宣称矩阵放在一起，检查证据链是否闭环（宣称→结局指标→证据→结论→风险控制/信息传递）。
把临床评价纳入 QMS 程序：明确版本控制、接口文件清单、跨部门评审节点（研发/医学/注册/质量/警戒）。
建立“可复现的检索”模板：检索问题（PICO 等）、数据库选择、检索式、时间范围、语言、筛选/排除规则、PRISMA 流程图输出。
建立 appraisal 量表与加权逻辑：把“相关性/可转移性”和“方法学质量/偏倚风险”拆开评估，并定义不同数据类型的权重规则。
把“替代方案/标准治疗”做成长期维护的知识库：不是每次 CER 临时抱佛脚，而是像竞品情报一样持续更新。
把临床获益说成“患者看得懂的结局”：尽量把性能指标翻译成患者获益或临床决策获益（尤其是诊断/管理类器械）。
为“可转移性/可比性”准备一套论证框架：技术/生物学/临床三维度的差异影响怎么评估，哪些差异会造成“临床显著差异”。
把 RWD 与 PMS 数据治理做起来：数据来源、质量、缺失、偏倚、统计方法、信号检测阈值、触发更新机制，最好提前形成 SOP。
针对软件/AI 的特殊点单独建章：版本迭代、训练数据漂移、网络安全更新、性能监测指标，如何映射到临床评价的“更新触发条件”。

10. 培训与“角色清晰化”：18969 明确要求参与/评审团队具备研究方法学、信息检索、法规、医学写作、临床与技术知识等能力。企业应把这些能力要求写进岗位与外包管理里。

六、写给审核老师看的，也写给自己看的：一份“扛打”的 CER 长什么样？

如果把 18969 的 Annex A 当成一个“目录参考”：

把产品与宣称讲清楚：适应症、人群、使用环境、禁忌、警告、预期寿命、与其他产品联用等。
把方法讲清楚：检索怎么做、数据怎么筛、质量怎么评、怎么加权、怎么分析。
把决策讲清楚：结论是什么，局限是什么，差距是什么，下一步要补什么，以及这些如何回写到风险管理、标签、PMS/PMCF。

当你按这个思路写，CER 会更像“技术与临床证据的耦合链”，而不是“叙述性综述”。

七、最后的提醒：别等“正式生效”才动手

18969 目前还是 DIS（草案）阶段，后续内容可能调整。但对企业来说，最值得提前做的并不是“逐条对照逐字执行”，而是把它背后的方法学能力补齐：

可复现的检索与筛选；
可解释的 appraisal 与加权；
以 outcome parameters + evaluation criteria 为中心的论证；
生命周期化的更新机制与信号监测。

这些能力一旦建立，不管最终条文微调如何，你都会发现：写 CER 更快、被问问题更少、团队协作更顺。

最后，扔出一个问题，尝试引发我们的思考，在今后的欧盟临床评价的工作中，规则制定方，NB审核方，企业，咨询方共同探讨磨合的一个话题是：我们该如何应对和权衡MDR，MDCG，ISO8969， MDR新草案，EU2025/2086之间的一个关系和侧重，这么多条路如何在实践中通往经得起考验的“罗马王国”-- CER？？

最后，如需获取ISO18969 PDF 全文的宝子，请在后台回复：ISO18969，自动获取～

附：本文引用的主要来源

ISO/DIS 18969:2025(en) Clinical evaluation of medical devices（草案全文）
Regulation (EU) 2017/745（MDR）Article 61、Annex XIV 等
MDCG 2020-5（equivalence）、MDCG 2020-6（sufficient clinical evidence for legacy devices）、MDCG 2020-13（CEAR template）等

返回文章列表