首页 | 本学科首页   官方微博 | 高级检索  
     

基于Monte Carlo模拟的完全随机缺失数据处理方法效果比较
作者姓名:王可  杨弘  田晶  李晨昊  韩清华  张岩波
作者单位:山西医科大学公共卫生学院流行病与卫生统计学教研室;山西医科大学附属第一医院心内科;重大疾病风险评估山西省重点实验室
基金项目:国家自然科学基金(81872714);山西省青年科技研究基金(201801D221423)。
摘    要:
目的探讨不同缺失比率下几种缺失处理方法的优劣,为缺失数据的处理提供参考。方法以慢性心力衰竭的部分患者电子病历资料为数据基础,运用R软件,采用Monte Carlo模拟完全随机、任意缺失的数据集,并采用成组删除法、均值填补法、期望最大化填补法、缺失森林填补法和多重填补法分别对模拟的不同缺失比率数据集进行缺失处理,并对所得"完整数据集"拟合多元线性回归模型,得到的参数估计结果与完整数据集参数估计进行比较。结果在不同的缺失比率下不同缺失处理的效果存在差别,在5%和10%缺失比率下,链式方程填补法(multivariate imputation by chained equations,MICE)和期望最大化法(expectation maximization,EM)最优,缺失森林填补法(miss forest,MF)、均值填补法(mean completer,MC)和成组删除法(complete case method,CCM)效果接近;在20%缺失比率下,MICE最优,EM次之,CCM和MF近似,MC最差;在30%缺失比率下,MICE和MF最优,EM和CCM次之,MC最差;在50%缺失比率下,MICE最优,EM和CCM次之,CCM和MF最差。结论对于不同缺失比率的数据,研究人员应综合考虑缺失处理方法的准确度和精确度以及操作难易程度,必须根据实际数据加以调整,采用不同的方法进行处理。

关 键 词:缺失处理  期望最大化法  缺失森林填补法  多重填补法
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号