首页 | 本学科首页   官方微博 | 高级检索  
检索        

队列研究中纵向缺失数据填补方法的模拟研究
引用本文:李业棉,赵芃,杨嵛惠,王静娴,颜虹,陈方尧.队列研究中纵向缺失数据填补方法的模拟研究[J].中华流行病学杂志,2021,42(10):1889-1894.
作者姓名:李业棉  赵芃  杨嵛惠  王静娴  颜虹  陈方尧
作者单位:西安交通大学医学部公共卫生学院流行病与卫生统计学系 710061
基金项目:国家自然科学基金(81703325);国家重点研发计划(2017YFC0907200,2017YFC0907201)
摘    要:目的 数据缺失是队列研究中几乎无法避免的问题。本文旨在通过模拟研究,比较当前常见的8种缺失数据处理方法在纵向缺失数据中的填补效果,为纵向缺失数据的处理提供有价值的参考。方法 模拟研究基于R语言编程实现,通过Monte Carlo方法产生纵向缺失数据,通过比较不同填补方法的平均绝对偏差、平均相对偏差和回归分析的Ⅰ类错误,评价不同填补方法对于纵向缺失数据的填补效果及对后续多因素分析的影响。结果 均值填补、k近邻填补(KNN)、回归填补和随机森林的填补效果接近,且表现稳定;多重插补和热卡填充次于以上填补方法;K均值聚类和EM算法填补效果最差,表现也最不稳定。均值填补、EM算法、随机森林、KNN和回归填补可较好地控制Ⅰ类错误,多重插补、热卡填充和K均值聚类不能有效控制Ⅰ类错误。结论 对于纵向缺失数据,在随机缺失机制下,均值填补、KNN、回归填补和随机森林均可作为较好的填补方法,当缺失比例不太大时,多重插补和热卡填充也表现较好,不推荐K均值聚类和EM算法。

关 键 词:纵向数据  缺失数据  填补
收稿时间:2020/11/30 0:00:00

Simulation study on missing data imputation methods for longitudinal data in cohort studies
Li Yemian,Zhao Peng,Yang Yuhui,Wang Jingxian,Yan Hong,Chen Fangyao.Simulation study on missing data imputation methods for longitudinal data in cohort studies[J].Chinese Journal of Epidemiology,2021,42(10):1889-1894.
Authors:Li Yemian  Zhao Peng  Yang Yuhui  Wang Jingxian  Yan Hong  Chen Fangyao
Institution:Department of Epidemiology and Biostatistics, School of Public Health of Xi''an Jiaotong University Health Science Center, Xi''an 710061, China
Abstract:
Keywords:Longitudinal data  Missing data  Imputation
点击此处可从《中华流行病学杂志》浏览原始摘要信息
点击此处可从《中华流行病学杂志》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号