获得现实世界证据的因果推断统计学思考

中国临床医学

2021, Vol. 28

Issue (5): 738-743 DOI: 10.12025/j.issn.1008-6358.2021.20212012

获得现实世界证据的因果推断统计学思考

黄丽红^1,4 , 赵杨^2,4 , 王陵^3,4 , 李晨^3,4 , 陈峰²

1. 复旦大学附属中山医院生物统计室, 上海 200032;
2. 南京医科大学公共卫生学院, 南京 211166;
3. 空军军医大学军队卫生统计教研室, 西安 710032;
4. CSCO生物统计学专家委员会RWE项目组

收稿日期：2021-08-31；接受日期：2021-10-19

基金项目：国家自然科学基金青年基金（81903407，81803328），国家自然科学基金面上项目（81773553）

作者简介：黄丽红, 博士.E-mail: huang.lihong@zs-hospital.sh.cn.

通信作者(Corresponding authors). 赵杨, Tel: 025-86868436, E-mail: Yzhao@njmu.edu.cn.

摘要：医学研究中，时常观察到相关关系（association），但因果推断（causal inference）才是临床研究的最终目标。因果关系的判定标准包含关联的时序性、强度、可重复性、特异性、一致性、剂量反应关系、生物合理性以及实验证据8个方面。为了获得因果关系，临床研究设计与分析中蕴含了众多因果推断元素。本文解析混杂因素的存在对因果关系的影响，并针对随机分组、分析数据集及亚组分析3个重要问题，探讨其中的因果推断元素。医学工作者应当充分认识到临床研究中的因果要素，从而正确认识研究所能提供的证据等级，并在实际工作中产生高等级的医学证据。

关键词：临床研究研究设计统计分析因果推断

Statistical consideration about causal inference to obtain real-world evidence

HUANG Li-hong^1,4 , ZHAO Yang^2,4 , WANG Ling^3,4 , LI Chen^3,4 , CHEN Feng²

1. Department of Biostatistics, Zhongshan Hospital, Fudan University, Shanghai 200032, China;
2. Public Health School, Nanjing Medical University, Nanjing 211166, Jiangsu, China;
3. Department of Health Statistics, Air Military Medical University, Xi'an 710032, Shaanxi, China;
4. CSCO Biostatistics Expert Committee RWE Working Group

Foundation item: Supported by National Natural Science Foundation of China for Youth (81903407, 81803328) and National Natural Science Foundation of China (81773553)

Abstract: Association is often observed in medical research, but causal inference is the ultimate goal of clinical study. The criteria for determining causality include association temporality, strength, consistency, specificity, coherence, dose-response relationship, biologic plausibility and experimental evidence. In order to obtain causality, there are many causal inference elements in clinical study design and analysis. This study analyzes the influence of confounders on causality, and discusses the causal inference elements in three important topics: randomization, analysis of data sets and subgroup analysis. Medical researches should be fully aware of the causal elements in clinical study, so as to currently understand the level of evidence that can be provided by study, and try to produce high-level medical evidence in practice work.

Key words: clinical study study design statistical analysis causal inference

在医学研究中时常观察到各种变量之间的相关性(association，correlation)，但是这些相关关系并不一定反映因果关系(causality)。例如，在某项研究中发现锻炼时长与血脂存在正相关关系，即锻炼时间越长血脂越高(图 1A)，显然不符合常理，然而在控制年龄因素(每10岁为一个年龄组)的影响后，每个年龄段的锻炼时长与血脂均有负相关关系，即锻炼时间越长血脂越低(图 1B)。由于剔除了年龄的影响，假设不存在其他混杂因素，就可以将锻炼时长与血脂的负相关关系归结于锻炼与血脂水平有负向的因果效应^[1]。

图 1 相关关系和因果关系示例

图选项

因果推断(causal inference)是临床医学研究中亘古不变的核心问题，无论是探索疾病的病因亦或观察某种新药对疾病的治疗效果^[2]。因果推断反应了一种在设计和分析过程中对混杂、偏倚等干扰的审慎考虑，从而在声明“因果关系”时能尽所能排除各种误判的可能^[3-4]。现实世界研究(real-world study, RWS)近年来备受关注，尤其是基于现实世界数据库的RWS，逐步开始应用。获得现实世界证据(real-world evidence, RWE)是RWS的核心目标，而因果推断是判定RWE的重要前提^[5]。

本文从因果关系的判定标准出发，解析混杂因素的存在对因果关系的影响，并针对临床研究设计与分析中的随机分组、分析数据集及亚组分析3个重要问题，探讨其中的因果推断元素，旨在帮助研究者正确理解因果推断在临床研究中的重要地位和价值。

1 Hill因果推断标准

Hill标准是目前学界公认的评判事物与事物之间的因果关系的“标尺”。由Austin Bradford Hill^[6]在1965年提出，包含8条标准，即关联的时序性、强度、可重复性、剂量反应关系、实验证据、生物学合理性、特异性以及一致性(图 2)。

图 2 Hill因果推断标准

图选项

在因果关系的判断中，关联的时间顺序是必须满足的，是因果推断的必要条件，在确定前因后果的时序性问题上，前瞻性队列研究和干预性研究比较容易判断。关联的强度、关联的可重复性、剂量-反应关系及实验证据有非常重要的意义，其他标准可作为参考。因此，并不一定要求8条标准全部满足，但满足的条件越多，则其因果关系成立的可能性越大。显然，RWE需要经过Hill标准的评判。

2 混杂因素对因果关系的影响

混杂因素(confounder)又称外来因素(extraneous factor)，与干预因素和研究结局皆相关，但不是暴露-结局的因果关系通路上的中间变量，该因素的存在将可能歪曲(夸大或缩小)暴露因素与结局的真实关系^[7]。流行病学家常用有向无环图(directed acyclic graph，DAG)来展示混杂^[8]。以G、Y和C分别代表研究因素、结局和混杂因素，一个典型混杂现象的DAG，见图 3。

图 3 混杂因素示意图

图选项

根据因果推断的相关理论，当混杂存在时，应当有一条从Y指向G的未被阻断的路径，即指向G的“后门”路径(backdoor path)。这里，由于C同时指向G和Y，故可以认为G和Y是相关的，该路径成为了一条后门路径。此时在估计G对Y的效应时若忽略了C，则估计的效应受到了混杂干扰，此时G与Y的相关性并非因果关系^[9]。

因果关系分析中处理混杂因素的方法就是截断“后门”路径，通过控制混杂因素，从而排除混杂因素的干扰，控制混杂因素可以简单地理解为固定混杂因素的值。图 3中一旦给定了C的值，G与Y的相关性就与C无关，二者的相关性就反映了因果关系。因此，控制混杂因素是因果推断中的重大挑战，临床研究中最理想的办法是在研究设计时就对混杂因素进行控制，例如通过随机分组的方法，从源头上控制已知和未知混杂的影响。而对于非随机对照研究中混杂因素的控制，一直以来是因果推断统计学方法的研究热点^[10-11]。

3 随机分组中的因果推断元素

要评价一种药物的疗效，最理想的方法是评价同一个受试者同时接受试验药物和安慰剂对照治疗，利用得到的使用试验药物的效果与使用对照药物的效果之差来评价。然而，事实上这是做不到的，因为分身无术，同一个受试者一次只能接受一种处理。

Hill早在1948年就在British Medical Journal发表了世界上第一篇应用随机对照设计方案的论文，该论文首次将严密的数理统计理论应用于临床医学的科研设计，并成功地探讨了链霉素对肺结核的疗效^[12]。1990年，93岁的Hill在回忆录中说：“自1937年我的著作出版后，我一直在寻找机会将随机化应用于临床试验，10年后机会终于来了，而我也早已准备好了”^[13]。

所谓随机化分组是指使参加临床研究中的每一位受试者都有同等的机会被分配到某处理组中，而不受研究者或受试者主观意愿的影响。随机化分组的意义在于可以使得各处理组间的各种非处理因素，不论是已知或未知的，在组间的分布皆趋于相似，使组间基线具有可比性，从而避免处理组和对照组之间的系统差异。

受试者接受随机化分组后，存在2种潜在结果(potential outcome)，即受试者接受处理组(D=1)的结果和受试者接受对照组(D=0)的结果，具体表示如下：

$ 潜在结果 = \left\{ \begin{array}{l} {Y_i}\left( 0 \right), 如果{D_i} = 0\\ {Y_i}\left( 1 \right), 如果{D_i} = 1 \end{array} \right. $

之所以称为潜在结果是因为2个结果是受试者本身应该具备的，只不过不能同时显现出来，如果没有显现就无法观测到。例如，受试者无论是否服药，都有服药和未服药2种情况下的潜在身体健康结果。对于未服药的受试者，服药的潜在结果没有观测到。在现实中没有观测到的状态也称为反事实(counterfactual)状态。

通常在临床研究中，所关心的因果效应为处理组平均因果效应(average treatment effect among the treated, ATT)，即处理组个体接受处理条件后的平均潜在结果E(y1|z=1)与处理组个体接受对照条件后的平均潜在结果E(y0|z=0)的差值，即ATT＝E(y1|z=1)-E(y0|z=0)(1)。直接从观察结果估计ATT时，并不能同时观察处理组个体接受处理条件和对照条件的2个潜在结果(实际观察结果和未能观察到的反事实结果)。但在随机对照试验中，试验组与对照组是随机分配的，基于反事实的一致性假设，即试验组的受试者如果接受对照组的治疗，可以得到与当前对照组一致的结果，反之亦然。因此，对照组的观察结果是试验组受试者接受对照组治疗的潜在结果的一个无偏估计，从而能够得到ATT的无偏估计值，这是随机对照试验可以进行因果推断的关键原因。

在Hill的8大标准中，采用随机化分组技术评价关联关系，可有效排除混杂因素的干扰，获得“关联的时序性”、“关联的强度”、“关联的可重复性”、“关联的特异性”评价的可靠信息，合理设置对照组后的随机对照试验，可获得“实验证据”，因此随机对照试验获得的循证证据最强。

4 分析数据集中的因果推断元素

随机对照试验的统计分析中，根据不同的分析目的往往需要定义不同的数据集，数据集的定义是统计分析计划(statistical analysis plan, SAP)的重要组成部分。最常用的数据集有全分析集(full analysis set, FAS)、符合方案集(per protocol set, PPS)和安全数据分析集(safety set, SS)^[14]。其中，FAS一般是临床试验疗效的主分析集，常常定义为按照意向性治疗(intention to treat, ITT)原则，所有随机化并有记录接受至少一次研究治疗的受试者，为一种调整过的ITT数据集(modified ITT, mITT)。可见，ITT原则是分析数据集定义的重要原则，即以意向性治疗(即计划的治疗方案)为基础进行评价，不以实际给予的治疗为基础进行评价，计划被分到某处理组的受试者即应作为该组成员被随访、评价和分析，不论其是否依从方案。常见分析数据集见图 4。

图 4 常见分析数据集示意图

图选项

在随机对照试验中，随机化分组是控制混杂的重要手段，各处理组间基线是均衡的。在试验实施过程中，需要维护这种均衡性。只有这样，对照组的观察结果才能作为试验组受试者接受对照组治疗的潜在结果的无偏估计，因而基于ITT原则的分析集通常定义为主要分析集。尽管基于ITT数据集的分析往往属于一种保守的估计，在统计学上是有偏估计，但是控制了Ⅰ类错误，符合药品审评的一般原则。PPS集是FAS集的一个子集，这些受试者符合试验方案、依从性好，试验期间未服用禁止药物，完成病例报告表(case report form, CRF)的信息收集等。然而，PPS集人群有可能破坏了随机化分组，组间存在基线不均衡的风险。实际工作中，ITT分析与PPS分析相结合是十分重要的，结论一致可以加强结论的可靠性。这一常规做法，是因果推断标准中“关联可重复性”的重要体现。

随着肿瘤临床研究的不断发展，单臂临床试验也可用于支持具有突破性疗效药物的新药注册申请，2020年5月，国家药品监督管理局药品审评中心发布《单臂试验支持注册的抗肿瘤创新药进入关键试验前临床方面沟通交流技术指导原则(征求意见稿)》，原则指出“单臂试验的有效性分析集应以ITT原则为参考”。在单臂设计的前提下，ITT分析估计了在“主观意向性”前提下治疗方案的有效性，某受试者同意入组但没能按照方案要求完成试验，按照ITT原则，此类受试者仍需纳入ITT分析。然而，单臂试验因缺乏对照，所能评价的因果推断标准有限，在实际应用中较为局限。

在非随机化的RWS中，由于缺乏随机分组，所比较的组间缺乏均衡性。是否能够进行因果推断取决于混杂因素是否有效控制，分析数据集的定义需要与研究设计、统计分析和结果解释融为一体进行综合考量^[15]。

5 亚组分析中的因果推断元素

所谓亚组(subgroup)是指临床试验中所有受试者按照某个基线特征定义的一个子集(subset)。亚组分析是针对亚组进行的统计分析。

异质性是基于临床结局测量的，处理效应在方向或者尺度上的非随机变异，与目标患者群体或临床研究人群中影响预后或预测治疗效果的因素差异程度有关。人群的异质性越强，在明确的亚组中调查治疗效果就越重要。通常采用森林图(forest plot)展示亚组分析的结果，当相关亚组在治疗效应的方向和尺度上基本一致时，能为研究的整体结论外推到研究患者总体增加说服力。

随机对照临床试验能够进行因果推断，但只能针对满足入、排标准的特定人群进行评价，如果存在异质性问题，则“关联的可重复性”这一重要标准无法满足，难以进行明确的因果推断^[16]。异质性的问题越来越受到重视，尤其是新药注册的确证型研究。对于已知的导致异质性的因素，例如：不同年龄组、不同性别，是否抽烟，是否有某种并发症，适应证的亚型等，应当在临床研究中定义亚组进行亚组分析。异质性的评价常常通过检验基线因素与处理因素的交互作用，临床研究目标人群的异质性越大，亚组分析越关键。

亚组分析包括2种情况：事先计划的分析(prespecified analysis)和事后分析(post-hoc analysis)。事先设计的亚组分析需要在设计时将亚组作为一个因素进行分层随机，维持亚组的随机性，从而保持随机化技术在亚组中的因果推断作用。另外还需考虑亚组分析的检验效能(针对亚组进行样本量估计)，需要考虑多重比较的Ⅰ类错误校正等问题。因此，只有事先设计的亚组分析才可能提供因果推断标准的“实验证据”，从而回答研究因素在某个特定人群中是否有效的问题，解释异质性的来源。即使整个目标人群结果没有统计学意义，亚组的意义也能提供有效证据。而事后亚组分析、或事先没有分层随机的亚组分析，亚组人群可能缺乏随机性；事后定义的亚组人群的分析，易受结果导向性影响进行“P值”挖掘的不当分析，假阳性结果风险较大。因此，事后亚组分析属探索性分析，仅用于评估临床研究结论的敏感性或稳健性，试验内部的一致性，或探索影响因素，为后续研究设计提供线索。

6 讨论

随着计算机技术，尤其是互联网和多媒体技术的普及与飞速发展，医学研究也迎来了大数据时代。大数据时代一个显著现象就是更关注数据的相关关系，有学者甚至提出“相关关系比因果关系能更好地了解这个世界”，尽管在商业领域对相关关系的分析颇具价值，但相关分析往往只是停留在数据表面，相关关系强的对象之间并不一定存在因果关系，为决策提供指导的能力受到了限制，特别是在医学领域，对疾病进行预防和治疗的具体措施，必须建立在因果关系的基础上。因此，因果推断才是临床研究的最终目标。

从Hill的因果推断标准可以看出，临床研究的证据强度与严谨的试验设计、高质量的数据以及精细的统计分析密切相关，并且单靠一个临床研究往往无法完全满足因果推断的标准，需要多个临床研究从不同的角度加以验证。本文充分探讨了随机化、分析数据集及亚组分析中因果推断元素，在RWS中同样应当充分考虑因果推断元素才能获得高质量的RWE。显然，由于非随机化的RWS需要考虑潜在的偏倚和混杂因素的影响，在进行因果推断时充满挑战。在注册类临床研究中提出了估计目标(estimand)框架^[17], 将试验目的、恰当的试验设计以及疗效评估和假设检验的方法紧密结合，融入了因果目标(causal estimand)的思想，值得在RWS中借鉴。

对于临床医生而言，进行医学研究设计时，应在设计的角度考虑现有设计能否回答因果问题，并事先计划好分析策略以避免事后数据挖掘带来的P值掘取问题(P-hacking)；在研究执行的过程中，时刻监督研究中是否出现会扭曲因果关系的事件，并提前考虑分析方式；在数据分析和解读的过程中，除了使用事先计划的分析策略和方法获取分析结果外，通过分层分析了解结论的一致性，通过敏感性分析考察结论的稳健性。总之，研究者应当充分认识到临床试验中的因果要素，从而正确认识试验所能提供的证据等级，并在实际工作中产生高等级的医学证据。

利益冲突：所有作者声明不存在利益冲突。

参考文献

[1]	PEARL J, GLYMOUR M, JEWELL N P. Causal inference in statistics: a primer[M]. Hoboken: John Wiley & Sons, 2016.
[2]	陶秋山, 詹思延, 李立明. 流行病学研究中的病因与病因推断[J]. 中华流行病学杂志, 2004(11): 1000-1003. TAO Q S, ZHAN S Y, Li L M. Etiology and etiological inference in epidemiological studies[J]. Chin J Epidemiol, 2004(11): 1000-1003. [DOI]
[3]	PEARL J. An introduction to causal inference[J]. Int J Biostat, 2010, 6(2): 59. [URI]
[4]	PEARL J. Causal inference in statistics: an overview[J]. Statistics Surveys, 2009, 3: 96-146. [URI]
[5]	SHEFFIELD K M, RIALL T S. Methods for enhancing causal inference in observational studies[M]. Hoboken: John Wiley & Sons, 2014.
[6]	詹思延. 流行病学(第八版)[M]. 北京: 人民卫生出版社, 2017. ZHAN S Y. Epidemiology (edition 8)[M]. Beijing: People's Medical Publishing House, 2017: 159-160.
[7]	黄丽红, 魏永越, 陈峰. 如何控制观察性疗效比较研究中的混杂因素: (一)已测量混杂因素的统计学分析方法[J]. 中华流行病学杂志, 2019, 40(10): 1304-1309. HUANG L H, WEI Y Y, CHEN F. How to adjust condounder in observational comparitive effectiveness researches PART 1:Statistical adjustment approaches for measured confounder[J]. Chin J Epidemiol, 2019, 40(10): 1304-1309. [DOI]
[8]	SMITH S R. Introduction to developing a protocol for observational comparative effectiveness research: a user's guide[J]. Methods, 2013. [PubMed]
[9]	HERNÁN M A, ROBINS J M. Causal inference: what if[M]. Boca Raton: Chapman & Hall/CRC, 2020.
[10]	黄丽红, 魏永越, 陈峰. 如何控制观察性疗效比较研究中的混杂因素: (二)未知或未测量混杂因素的统计学分析方法[J]. 中华流行病学杂志, 2019, 40(11): 1450-1455. HUANG L H, WEI Y Y, CHEN F. How to adjust condounder in observational comparitive effectiveness researches PART 2:Statistical adjustment approaches for unmeasured confounder[J]. Chin J Epidemiol, 2019, 40(11): 136-141. [URI]
[11]	黄丽红, 赵杨, 魏永越, 等. 如何控制观察性疗效比较研究中的混杂因素: (三)混杂因素控制的敏感性分析方法[J]. 中华流行病学杂志, 2019, 40(12): 1645-1649. HUANG L H, ZHAO Y, WEI Y Y, et al. How to adjust condounder in observational comparitive effectiveness researches PART 3:approaches on sensitivity analysis for confounder adjustment[J]. Chin J Epidemiol, 2019, 40(12): 1645-1649. [DOI]
[12]	陈峰, 于浩. 临床试验精选案例统计学解读[M]. 北京: 人民卫生出版社, 2015: 1-9. CHEN F, YU H. Statistical interpretation of selected cases of clinical trials[M]. Beijing: People's Medical Publishing House, 2015: 1-9.
[13]	HILL S. Memories of the British streptomycin trial in tuberculosis: the first randomized clinical trial[J]. Control Clin Trials, 1990, 11(2): 77-79. [DOI]
[14]	陈峰, 夏结来. 临床试验统计学[M]. 北京: 人民卫生出版社, 2018: 523-527. CHEN F, XIA J L. Cinical trial statistics[M]. Beijing: People's Medical Publishing House, 2018: 523-527.
[15]	黄丽红, 王陵, 言方荣, 等. 新视角解读临床试验中的意向性原则[J]. 中国临床药理学与治疗学, 2021, 26(4): 449-453. HUANG L H, WANG L, YAN F R, et al. New perspectives on the principle of intention to treat in clinical trials[J]. Chin J Clin Pharm Therap, 2021, 26(4): 449-453. [CNKI]
[16]	KENT D M, STEYERBERG E, VAN KLAVEREN D J B. Personalized evidence based medicine: predictive approaches to heterogeneous treatment effects[J]. BMJ, 2018, 363: k4245.
[17]	RATITCH B, GOEL N, MALLINCKRODT C, et al. Defining efficacy estimands in clinical trials: examples illustrating ICH E9(R1) guidelines[J]. Ther Innov Regul Sci, 2020, 54(2): 370-384. [DOI]

文章信息

Contents
PDF
Abstract
Full text
Fig/Tab

引用本文

黄丽红, 赵杨, 王陵, 李晨, 陈峰. 获得现实世界证据的因果推断统计学思考[J]. 中国临床医学, 2021, 28(5): 738-743.

HUANG Li-hong, ZHAO Yang, WANG Ling, LI Chen, CHEN Feng. Statistical consideration about causal inference to obtain real-world evidence[J]. Chinese Journal of Clinical Medicine, 2021, 28(5): 738-743.

通信作者(Corresponding authors).
赵杨, Tel: 025-86868436, E-mail: Yzhao@njmu.edu.cn.

基金项目
国家自然科学基金青年基金（81903407，81803328），国家自然科学基金面上项目（81773553）

Foundation item
Supported by National Natural Science Foundation of China for Youth (81903407, 81803328) and National Natural Science Foundation of China (81773553)

文章信息

工作空间