2. 复旦大学附属中山医院肿瘤内科, 上海 200032;
3. 复旦大学附属中山医院消化科, 上海 200032;
4. 复旦大学循证医学中心, 上海 200032
2. Department of Oncology, Zhongshan Hospital, Fudan University, Shanghai 200032, China;
3. Department of Gastroenterology, Zhongshan Hospital, Fudan University, Shanghai 200032, China;
4. Center of Evidence-Based Medicine, Zhongshan Hospital, Fudan University, Shanghai 200032, China
自2019年12月中国首例新型冠状病毒肺炎(COVID-19)病例被发现,短短2个月内在我国部分地区发生了疫情大流行[1-2]。面对突如其来的新型冠状病毒(SARS-CoV-2)疫情,迫切需要开展临床和基础研究以寻找应对方法。COVID-19传染性强,任何一位漏诊患者都可能成为潜在传染源,因此准确、快速的诊断和筛检方法显得尤为重要。此外,患者的疗效评价、预后估计等,一定程度上也都依赖诊断试验结果。
我国广大医务和科研人员在积极抗击COVID-19疫情的同时,启动了一系列临床研究,寻找并总结循证医学证据。经检索,截至2020年3月30日0时,共有217家不同机构作为主办单位在中国临床试验注册中心(Chinese Clinical Trial Registry,ChiCTR)网站注册了506项临床研究,其中264项(52.2%)为干预性研究,注册类型为诊断试验有32项(6.3%,其中3项研究已被研究者撤销),且研究注册数量仍逐日上升。回顾29项诊断试验的注册信息,发现这些研究在设计方面仍存在一定不足。因此,本文针对已开展和即将开展COVID-19诊断试验的研究者提供一些研究设计的建议和注意事项,希望能帮助研究者在顶层设计阶段减少、避免偏倚,完成高质量的临床研究。
1 构建临床研究问题根据研究目的,临床研究问题主要包括诊断、治疗、预后、不良反应。借助患者干预比较结果(PICOS)原则将有助于将临床问题转化为科学问题,形成初步的研究架构。本研究以评价COVID-19的诊断试验的准确性研究为例,说明如何使用PICOS原则来构建科学问题。
1.1 研究对象-P(patient or participant)诊断试验的研究对象应包括该诊断方法可能应用的受检人群,即可能患有某疾病的疑似病例,一般应包括病例人群和非病例人群。病例人群应是使用“金标准”确诊为该疾病的患者,包括该病种的所有不同类型,能代表该疾病的全部特征。非病例人群应选择有明确证据证实无该疾病的患者或健康人群,尤其应当包含易与本病相混淆的病例,即那些分布在“灰色带(grey zone)”的患者,以考察该方法的鉴别诊断效果。
根据目前29项COVID-19诊断试验的注册信息,对于纳入的目标患者人群,仅有2项(6.90%)试验的注册信息中提及纳入不同临床分型的患者;对于纳入的非病例人群,有9项(31.0%)试验并未填写纳入容易混淆的疾病人群,这些研究的受试者代表性可能存在问题。针对其中存在的问题,将在2.2予以具体建议。
1.2 干预措施-Ⅰ(intervention)在诊断试验中具体指诊断试验的实施方法,建议详细、清晰地写明具体操作和实验条件,如待评估的诊断试剂对SARS-CoV-2核酸的采样要求、检验操作规范,以确保诊断试验的可重复性,便于研究结果的推广和应用。
1.3 对照(或比较)-C(comparison or control)在研究目的为评价诊断试验准确性的研究中,比较为金标准(gold standard)。金标准指当前临床医学界公认的诊断疾病最可靠、最公认、最权威的方法,也可称作标准试验方法或参照试验[3]。目前已开展的COVID-19诊断试验中,12项(69.0%)是以病毒核酸逆转录PCR(RT-PCR)检测为金标准,8项(27.6%)是以临床症状结合核酸检测方法为金标准,其他研究是以临床结局或影像学诊断为金标准,针对金标准的设置详见2.1。
1.4 结局-O(outcome)诊断试验通常选择灵敏度(sensitivity)、特异度(specificity)或受试者工作特征(ROC)曲线下面积(AUC)作为诊断研究的主要评价指标。传统观念认为这3个指标均不受患病率的影响。也可根据不同的研究目的选择主要评价指标,例如在人群筛查COVID-19疑似病例时,可选择灵敏度作为主要评价指标;对疑似病例进行临床确诊时,可同时考虑灵敏度和特异度作为主要评价指标。在注册的29项研究中有17项(58.62%)试验的主要结局指标为灵敏度、特异度或AUC等,其他试验的注册信息显示主要评价指标为临床预后指标(如病死率、治愈率等)。
2 开展COVID-19诊断试验的设计要点和具体建议 2.1 金标准的确定判断诊断试验真实性的最好方法是将所考核的诊断试验结果与“真实”情况进行盲法比较[3],“真实”情况则是由金标准来确定的。金标准是开展诊断试验的基础,需要正确地区分有病和无病,且应与待评估诊断试验相互独立。待评估诊断试验是金标准的一部分,否则会导致“掺和偏倚(incorporation bias)”,错误地高估该诊断试验的准确性[4]。然而,现实中金标准往往并不“完美”,但它至少应当比待评价的诊断试验方法可靠。当没有合适的金标准,或金标准难以实现或非常昂贵时,可考虑借助贝叶斯方法来解决此问题。近年来,国内外已有多位学者开展基于贝叶斯理论的无金标准情况下诊断试验的评价方法研究[5-9]。
已开展的29项COVID-19诊断试验中,12项(69.0%)是以病毒核酸RT-PCR检测为金标准。该方法是一种广泛使用的检测技术,总体来说可靠性很高。但是,在实际研究实施过程中,由于采样、检验过程中的误差,不同试剂盒提取到的核酸数量和质量差异,都将直接影响检测的结果,引入“不完美金标准偏倚(imperfect gold-standard bias)”。因此,参考《新型冠状病毒肺炎诊疗方案(试行第六版)》,建议研究者将金标准设置为临床诊断与RT-PCR检测相结合。截至3月30日的注册信息显示仅有8项(27.6%)研究选用了这一金标准。此外,值得注意的是,有1项研究的注册信息显示将胸部CT或临床结局作为金标准,这样的金标准可能无法真实反映患者的疾病状态,引入偏倚,建议修改。
2.2 受试者的代表性和入组方式在诊断试验中,受试者包括病例与非病例人群,应与临床受检人群尽可能一致。受试者的代表性将直接影响诊断试验结果的可靠性和外推性。特别需要注意的是,在纳入病例人群时应涵盖不同的疾病状态,重症患者的临床体征、实验室检验结果常有明显异常,因此,待评估的诊断试验很容易就能将重症患者与正常人区分开。但诊断试验在实际应用时,常面临的患者是轻症患者,若研究中没有纳入这些患者,则会高估了该诊断试验的各项评估指标(包括灵敏度、特异度等),导致“疾病谱偏倚(spectrum bias)”[10-11]。截至目前仅有2项(6.90%)COVID-19诊断试验的注册信息中提及纳入轻型或普通型的患者,因此强烈建议在开展研究时,根据诊疗指南纳入不同临床分型(轻型、普通型、重型、危重型)的,不同病程(早、中、晚期)的,以及不同性别、年龄层次的病例人群。另一方面,当诊断试验中未纳入容易混淆的非病例人群时,同样容易引入疾病谱偏倚。经检索,有9项(31.03%)试验注册信息中并未指明容易混淆的非病例人群信息。建议这些研究者应补充相关信息,考虑纳入流感、副流感、腺病毒、支原体、衣原体或细菌性肺炎患者或是有相似症状的患者,这些均是容易与COVID-19确诊患者混淆且需要鉴别诊断的人群。
不同的患者入组方式同样对诊断试验的样本代表性有影响。若诊断研究采用病例对照设计(case-control),经过金标准的判断后纳入确诊的患者和非患者,往往很难保证受试者的代表性(常不会纳入“灰色带”的患者),引起偏倚。若采用横断面设计或队列设计,受试者是连续纳入就诊的疑似患者,入组后再进行金标准的确诊,那么可以在一定程度上保证受试者涵盖不同的疾病状态,但受患病率影响无法保证病例与非病例数量相当。根据临床试验注册中心网站的信息,无法获知29项研究的设计和患者入组方式,因此不做具体评述。在设计有关COVID-19的诊断试验时,建议应尽量避免采用病例对照设计,尽量采用横断面设计或队列设计,自然状态下连续纳入就诊的疑似病例,如进一步要对治疗疗效监测、预后判断等,还可长期追踪患者预后。如已经采用了病例对照设计,则应该尽量纳入各种疾病状态的患者,并谨慎解读研究结果。
2.3 样本量估计样本量计算是科学研究设计中的重要步骤,诊断试验研究也不例外。回顾前述的有关COVID-19的29项诊断试验注册信息,其中10项(34.5%)研究的样本量不足100例,4项(13.8%)研究的样本量设置不足50例。可能存在样本量不足从而握度不足,难以获得预期的研究结论的情况。在此推荐常用的计算方法供研究者在研究设计时参考,研究者需合理设定样本量计算时的参数,正确估算所需样本量:
主要评价指标为灵敏度和/或特异度,研究目的在于评价某一新方法的诊断效果,并且在入组时不知道患者疾病状态时,可采用Buderer推导的公式计算[12]:
$n_{Se}=\frac{Z_{\alpha / 2}^{2} S e(1-S e)}{d^{2} \times \operatorname{Pre}}, n_{S p}=\frac{Z_{a / 2}^{2} S p(1-S p)}{d^{2} \times(1-\operatorname{Pre})} $ |
其中,Zα/22为标准正态分布的分位数,α=0.05时,Zα/22=1.96;Se、Sp分别表示预估的灵敏度和特异度;Prev表示疾病的患病率;d表示估计精确度,主要由研究者根据专业来定。
主要评价指标为灵敏度和/或特异度时,研究目的是比较待评估方法与对比品进行比较,可采用基于率差的样本量计算公式[13]:
$n=\frac{\left[Z_{a / 2} \sqrt{2 \times \bar{P}(1-\bar{P})}+{\rm{Z}}_{\beta} \sqrt{P_{1}\left(1-P_{1}\right)+P_{2}\left(1-P_{2}\right)}\right]^{2}}{\left(P_{1}-P_{2}\right)^{2}} $ |
其中,P1和P2分别表示待评估产品和对比品的预估值;P表示P1和P2的均值。
主要评价指标为AUC或似然比(LR)时,也需要根据不同的研究目的和情形选择不同的计算公式[13-14]。最终研究样本量还应在公式计算的样本量基础上考虑受试者的脱落。在有关体外诊断试剂的诊断试验中,除了满足统计学的要求外,还应符合《体外诊断试剂临床试验技术指导原则》的最低样本量要求[3]。
2.4 同步、独立、盲法的测定在评估诊断试验的准确性研究中,同一患者接受待评估诊断试验和金标准的测定应是互相独立、盲法的,即其中一方的检测人员不知道另一方的结果。在29项诊断试验的注册信息中,研究者未报告盲法的设置和试验实施的细节。但是,在某一评价肺部超声对COVID-19诊断效果的研究中,研究者将胸部CT设置为诊断金标准,如果实施时不设盲、不独立地测定,检查医生在患者胸部CT中获知了患者存在肺部结节后,很有可能在肺部超声过程中更有倾向地发现肺部有异常回声,进而引入偏倚。因此,即使在抗击疫情如此紧张繁忙的时刻,仍旧应当坚守独立、盲法测量的基本原则,因为在某些情况下了解了金标准检查的结果后,往往会影响对诊断试验结果的判断,夸大诊断试验的效果[10]。
此外,诊断试验实施过程中,还应注意诊断试验和金标准检查同步进行,特别对于像COVID-19这类急性、自限性疾病尤为重要。因为不同阶段的疾病状态和测量值可能不同。但同步并不一定是同时,研究者可根据临床经验科学的设定诊断试验和金标准检查的时间间隔,并保证所有受试者都能够在这一时间间隔内完成。针对COVID-19而言,可在进行金标准采样测量的同时或之后的1~2 d内完成诊断试验的测量。
3 讨论针对此次突发的重大公共卫生事件,早发现、早诊断、早治疗是患者获得良好预后的关键[2, 15],有效治疗的前提是正确的诊断,任何一个漏诊或误诊都可能引起疫情的扩大或诊疗延误。因此应积极鼓励开展有关COVID-19的诊断和筛查研究。
在抗击疫情如此紧张的时刻,更加应该集中力量开展高质量的临床研究,尽量避免低质量的临床研究挤占有限的医疗资源,增加临床救治工作的负担。如果开展研究没有科学的顶层设计(如诊断试验的金标准设置不科学或样本量不足),那么诊断试验结果的准确性和可靠性就难以保证,这也是对患者的不负责。
在此建议:(1)在开展有关COVID-19的诊断和筛查研究前,研究者需要与临床流行病学专家、方法学专家就研究设计进行深入沟通;(2)在研究设计时,研究者需要着重考虑研究的金标准的合理性,受试者的代表性,样本量计算的科学性等设计要点;(3)在研究方案实施时,研究者要严格按照研究方案执行,同步、独立、盲法地进行测量,数据的采集尽量采用规范的电子化系统,数据管理和统计分析寻找第三方完成,科学解读研究结果,避免引入偏倚;(4)对研究目的是早期诊断、疗效监测、预后判断的诊断试验,在与金标准比较后,还应追踪患者的短期与长期预后。
开展高质量的诊断研究仍面临较多的技术挑战,本研究的目的仅是为计划开展COVID-19诊断试验的研究者提供一些提示和建议,希望研究者能积极与有关科研院所和方法学专家沟通,合作完成高质量的临床研究,提供高级别的循证证据。
[1] |
陈大明, 赵晓勤, 缪有刚, 等. 全球冠状病毒研究态势分析及其启示[J]. 中国临床医学, 2020, 27(1): 1-12. [URI]
|
[2] |
复旦大学附属中山医院新冠肺炎诊治专家组. 复旦大学附属中山医院新型冠状病毒肺炎疑似病例诊治方案(2020 v.1)[J]. 中国临床医学, 2020, 27(1): 13-15. [URI]
|
[3] |
国家食品药品监督管理总局.国家食品药品监督管理总局关于发布体外诊断试剂临床试验技术指导原则的通告[EB/OL].http://www.nmpa.gov.cn/WS04/CL2183/322066.html.
|
[4] |
GUPTA A, ROEHRBORN C G. Verification and incorporation biases in studies assessing screening tests:prostate-specific antigen as an example[J]. Urology, 2004, 64(1): 106-81.
[DOI]
|
[5] |
杨丽, 武海滨, 郭峰琦, 等. 无金标准诊断试验灵敏度和特异度的贝叶斯估计方法[J]. 中国医院统计, 2011, 18(2): 111-115. [URI]
|
[6] |
顾海雁, 陈启光. 无金标准情况下诊断试验的评价方法[J]. 中国卫生统计, 1999, 16(4): 203-205. [URI]
|
[7] |
郑水龙, 陈炳为, 刘沛, 等. 无金标准情况下三个诊断试验评价方法[J]. 中国卫生统计, 2007, 24(2): 129-131. [URI]
|
[8] |
JOSEPH L, GYORKOS T W, COUPAL L. Bayesian estimation of disease prevalence and the parameters of diagnostic tests in the absence of a gold standard[J]. Am J Epidemiol, 1995(3): 141.
[URI]
|
[9] |
BRANSCUM A J, GARDNER I A, JOHNSON W O. Estimation of diagnostic-test sensitivity and specificity through Bayesian modeling[J]. Prev Vet Med, 2005, 68(2-4): 145-163.
[URI]
|
[10] |
WHITING P F, RUTJES A W, WESTWOOD M E, et al. A systematic review classifies sources of bias and variation in diagnostic test accuracy studies[J]. J Clin Epidemiol, 2013, 66(10): 1093-1104.
[URI]
|
[11] |
USHER-SMITH J A, SHARP S J, GRIFFIN S J. The spectrum effect in tests for risk prediction, screening, and diagnosis[J]. BMJ, 2016, 353: i3139.
[URI]
|
[12] |
BUDERER N M. Statistical methodology:Ⅰ. Incorporating the prevalence of disease into the sample size calculation for sensitivity and specificity[J]. Acad Emerg Med, 1996, 3(9): 895-900.
[DOI]
|
[13] |
HAJIAN-TILAKI K. Sample size estimation in diagnostic test studies of biomedical informatics[J]. J Biomed Inform, 2014, 48: 193-204.
[URI]
|
[14] |
SIMEL D L, SAMSA G P, MATCHAR D B. Likelihood ratios with confidence:sample size estimation for diagnostic test studies[J]. J Clin Epidemiol, 1991, 44(8): 763-770.
[URI]
|
[15] |
樊嘉. 打造精品特色专栏助力战胜新冠疫情——"新冠肺炎防控专栏"导读[J]. 中国临床医学, 2020, 27(1): 封二. [URI]
|