首页 | 本学科首页   官方微博 | 高级检索  
     

混合型缺失数据填补方法比较与应用
作者姓名:杨弘  田晶  王可  张青  韩清华  张岩波
作者单位:1. 山西医科大学公共卫生学院流行病与卫生统计学教研室;2. 山西医科大学附属第一医院心内科;3. 重大疾病风险评估山西省重点实验室
基金项目:国家自然科学基金(81872714);;山西省青年科技研究基金(201801D221423);
摘    要:目的针对混合型缺失数据,使用几种填补方法在缺失填补中的应用并评价填补效果。方法结合实际数据,模拟出不同缺失比例(10%、20%、30%、50%),采用MissForest、因子分析(FAMD)、K-最近邻填补法(KNN)和基于链式方程多重插补(MICE)四种方法进行填补;采用错分类比例(PFC)、正则化均方根误差(NRMSE)和回归系数估计值比较填补效果。结果 FAMD与MissForest相比,对分类变量填补表现优越。缺失比例是10%时,FAMD与MissForest表现优于KNN和MICE;缺失比例是20%时FAMD明显优于其它三种方法,但是MissForest表现亦可;缺失比例是30%时,四种模型表现明显下降,处理效果均不太理想;缺失比例是50%时,虽然FAMD仍有两个变量符合优良标准,但对某些变量估计误差较大,其它三种方法填补均失效。结论 FAMD填补方法总体表现较好,面对混合型缺失数据时可以考虑优先选用。

关 键 词:混合型数据  缺失值填补  因子分析  缺失森林
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号