E值(E-value):评估未测量混杂效应
为什么要介绍E-value
- 常规的敏感性分析(Sensitivity Analysis)存在主观性:研究者可以选择让自己的结果更强健的敏感性参数
- 评估假设所需要的假设:敏感性分析的本质是为了评估改变研究所基于的假设,研究结果是否会出现变化。然而,为了进行敏感性分析,往往需要新的假设。
- 复杂:很多敏感性分析方法非常复杂,很多研究者都不能很好的使用和阐述结果。
- 不容易发表:占用太多版面,如果刊物没有补充性材料的部分,很可能会要求研究者删掉敏感性分析的内容。
E值是什么?
英文定义: the minimum strength of association, on the risk ratio scale, that an unmeasured confounder would need to have with both the treatment and the outcome to fully explain away a specific treatment-outcome association, conditional on the measured confounding(VanderWeele and Ding,2017)
简单来说:E值就是,在控制已测量混杂因素的条件下,如果未测量的混杂效应想要完全抹掉你研究中的Risk Ratio(你研究中得到的暴露和结果之间的关联效应),那未测量混杂效应最小要是多少才能达到这个目的。 主要用处:去评估未测量混杂因素对观察型研究中的因果结论所产生的潜在影响
假设
没有假设。
注释
E:暴露;D:结果;C:已测量混杂因素;U:一个或多个未测量混杂因素(不一定是二元,可以是多个类,用k表示);RR:Risk Ratio(不知道中文名称)
参数
: 在已测量混杂因素C等于c的分层中,基于你研究数据所观察到的Risk Ratio(暴露和结果之间)。简单来说就是,你控制了那些已测量的混杂因素以后,得到的暴露和结果之间的RR。
: 在已测量混杂因素C等于c的分层中,当未测量混杂因素U=k的时候,未测量混杂因素和暴露之间的Risk Ratio。
因为U可以是多个,而且类别也可以是多个,那么我们只取所有这些未测量混杂因素和暴露之间的RRs中的最大值,可以得到:
: 在已测量混杂因素C等于c的分层中,未测量混杂因素和暴露之间的最大Risk Ratio。也就是,最大程度的相关效应。
: 在已测量混杂因素C等于c的分层中,未暴露的组里,未测量混杂因素U和结果之间最大的Risk Ratio。
: 在已测量混杂因素C等于c的分层中,暴露的组里,未测量混杂因素U和结果之间最大的Risk Ratio。
然后,我们还是只想要得到一个未测量混杂和结果之间的最大RR:
: 在已测量混杂因素C等于c的分层中,未测量混杂因素和结果之间的最大Risk Ratio。也就是,最大程度的相关效应。
: 在已测量混杂因素C等于c的分层中,真实的因果性Risk Ratio(暴露和结果之间)
B因子和E值
因为RR本身可以>1也可以<1,而这会影响具体的等式,所以需要分开讨论。
这里的基本逻辑是利用不等式找到一个临界点,这也是为什么上面参数部分一直在用最大值。
如果, 根据上面的参数,利用不等式,最后可以推出真实的RR和观察到的RR之间的不等关系(具体过程不讲了):
如果, 根据上面的参数,利用不等式,最后可以推出真实的RR和观察到的RR之间的不等关系(具体过程不讲了):
就是B因素,Bounding Factor,代表未测量混杂因素削减观察到的RR(暴露和结果之间的关联效应)所能达到的最大因子。
我们同时也可以等到E-value。
置信区间以及 的情况可以看下图。E值>=1。
例子(VanderWeele and Ding,2017)
- 是否母乳喂养和是否发生婴儿的呼吸系统疾病致死
- 观察到的RR=3.9 (95% CI:1.8,8.7)
- 已经控制了已测量的混杂因素
-
计算B因子
- 假设最大值是4,最大值是2
- (95% CI: 1.1, 5.4)
- 未测量混杂因素是不足以完全抹掉暴露和结果之间的关联效应的
-
计算E值
- E值= 3.9 +sqrt{3.9*(3.9-1)}=7.26
- 观察到的RR(3.9)在如下情况下,可以被未测量混杂效应完全解释掉:未测量混杂因素和暴露以及因果两个都至少有7.26的RR,而且是在控制了已测量混杂因素的情况下。
-
E值的图(如下)
- 大的E值表示,很大的未测量混杂效应才能解释掉我们的RR
- 小的E值表示,很小的未测量混杂效应才能解释掉我们的RR
- 大或小都是相对于我们的暴露和结果而言的
优势和劣势
优势包括:
- 不需要假设(给出一个保守的结果)
- 计算简单、方便报告和阐述
- 可以使用其他测量(Odds Ratio、Hazard Ratio、计数、连续性结果变量)
- 减少主观性
劣势包括:
- 如果知道未测量混杂因素是什么,同时知道它很少发生,那就不适合使用E值
- E值不可以用来当作证据去证明你的研究没有关联效应
- 如果未测量混杂因素太多,类别太多或者是连续型,可能很难阐述
- 其他的偏倚,例如选择偏倚、测量误差也可能会削弱我们的因果效应
应用
- R包:EValue
- Stata模块:EVALUE
- 网站: evalue-calculator
参考文献
•DING P & VANDERWEELE TJ (2016). SENSITIVITY ANALYSIS WITHOUT ASSUMPTIONS. EPIDEMIOLOGY, 27(3), 368–377.
•VANDERWEELE TJ & DING P (2017). SENSITIVITY ANALYSIS IN OBSERVATIONAL RESEARCH: INTRODUCING THE E-VALUE. ANNALS OF INTERNAL MEDICINE, 167(4), 268-274.
•VANDERWEELE TJ, MATHUR MB, & DING P (2019B). CORRECTING MISINTERPRETATIONS OF THE E-VALUE. ANNALS OF INTERNAL MEDICINE 170(2), 131-132.
•MATHUR MB, DING P, RIDDELL CA, & VANDERWEELE TJ (2018). WEBSITE AND R PACKAGE FOR COMPUTING E-VALUES. EPIDEMIOLOGY 29(5), E45-E47.
•THABANE, L., MBUAGBAW, L., ZHANG, S. ET AL. A TUTORIAL ON SENSITIVITY ANALYSES IN CLINICAL TRIALS: THE WHAT, WHY, WHEN AND HOW. BMC MED RES METHODOL13, 92 (2013). HTTPS://DOI.ORG/10.1186/1471-2288-13-92
•VELENTGAS P, DREYER NA, NOURJAH P, SMITH SR, TORCHIA MM, EDS. DEVELOPING A PROTOCOL FOR OBSERVATIONAL COMPARATIVE EFFECTIVENESS RESEARCH: A USER’S GUIDE. AHRQ PUBLICATION NO. 12(13)-EHC099. ROCKVILLE, MD: AGENCY FOR HEALTHCARE RESEARCH AND QUALITY; JANUARY 2013. WWW.EFFECTIVEHEALTHCARE.AHRQ.GOV/METHODS-OCER.CFM.