济性。另一方面,RWS往往采用较宽泛的纳排标准,有时需要随访较长时间来来研究长期临床结局,充分反映实际的临床实践,因此应在确定最小样本量的基础上,尽可能地扩大样本量以保证其能够覆盖更广泛的患者群体并考虑到较长随访时间导致的失访的可能性。在具有异质性的患者群体中可进行亚组分析,从而拓展研究的意义。具体样本量的估算需要在临床医生、统计师和流行病学家等的合作下共同完成。•统计方法的考量应在研究问题确定后,尽早制定研究方案和统计分析计划,将解决主要研究目的统计方法纳入。parativeeffectivenessresearch,CER)[5]的分析方法有类似之处。因RWS接近临床实际,研究对象的纳入限制较少、人群的异质性较大、自主选择治疗措施等造成潜在偏倚和混杂,因此统计方法更多是关注如何减小和控制偏倚和混杂。常见的有匹配、分层分析和多变量分析。在较多风险因素或者研究因素的情况下,使用多变量分析将多个因素同时纳入模型,会由于共线性等问题,使得模型无法正常运行。倾向性评分匹配(propensityscorematching)或者分层(stratification)则是解决该类问题的常用统计方法。成本效益模型、贝叶斯模型等也常应用于RWS的研究设计中。另外,利用已有数据库开展的预测研究也是常见的RWS类型之一,是对疾病各种结局发生概率及其影响因素的研究。传统的统计方法包括Logistic回归和Cox回归以及列线图(nomogram),可以用来预测疾病转归或者并发症的发生概率;另外,近年来发展出的基于真实世界大数据的机器学习(machinelearning)的方法也是用于预测研究的常用工具。•处理缺失数据在RWS中,数据的缺失是一个不可避免的问题。预防策略和统计调整可以减少缺失数据对研究结果的影响,提高结果的可靠性。关注不同研究类型可能出现的数据缺失也可帮助减少缺失数据对研究结果影响。9