集成学习和决策树在2型糖尿病前瞻性风险评估中的应用 |
| |
引用本文: | 刘睿懿,曲翌敏,刘璇,江宇.集成学习和决策树在2型糖尿病前瞻性风险评估中的应用[J].中国慢性病预防与控制,2023(4):278-283+288. |
| |
作者姓名: | 刘睿懿 曲翌敏 刘璇 江宇 |
| |
作者单位: | 中国医学科学院北京协和医学院群医学及公共卫生学院流行病与生物统计学系 |
| |
摘 要: | 目的 比较多种集成学习算法和决策树(DT)在构建中国45岁及以上中老年人2型糖尿病(T2DM)前瞻性风险评估模型中的性能差异,为集成学习算法在中老年人T2DM预防与控制中的应用提供理论依据。方法 数据来源于2011—2015年中国健康与养老追踪调查项目,选取其中7 979名45岁及以上中老年人为研究对象。收集研究对象基线社会人口学特征、生活方式与健康行为、疾病史、体格检查和实验室检查结果。采用Python 3.7.6和R 4.1.2软件构建DT、随机森林(RF)、自适应提升算法(AdaBoost)、轻量级梯度提升机(LightGBM)和极端梯度提升(XGBoost)模型。在训练集中处理不平衡数据并优化超参数,采用5折交叉验证评估模型效能。根据默认阈值、平均灵敏度高于80%时阈值,计算受试者工作特征曲线下面积(AUC)、灵敏度和特异度;计算默认阈值下净重新分类改善指数(NRI)和综合判别改善指数(IDI)。结果 7 979名研究对象中,T2DM患者为1 061例(13.3%)。默认阈值下,RF、AdaBoost、LightGBM和XGBoost 4种集成学习算法平均AUC分别为0.640...
|
关 键 词: | 糖尿病 2型 风险评估 机器学习 |
|
|