首页 | 本学科首页   官方微博 | 高级检索  
     

基于多核学习的弥漫大B细胞淋巴瘤早期复发的精准预测北大核心CSCD
作者姓名:邢蒙  周洁  余红梅  张岩波  阳桢寰  赵艳琳  李雪玲  李琼  赵志强  罗艳虹
作者单位:1.山西医科大学公共卫生学院卫生统计教研室030001;2.重大疾病风险评估山西省重点实验室;3.山西省肿瘤医院PET/CT中心;4.山西省肿瘤医院血液科;
基金项目:山西省科技厅应用基础研究计划面上项目(202103021224245);国家自然科学基金青年科学基金(81502897);山西医科大学博士启动基金(BS2017029);国家自然科学基金面上项目(81973154)。
摘    要:目的对山西省某三甲医院2011-2017年间血液科新诊断的弥漫大B细胞淋巴瘤患者(diffuse large B-cell lymphoma,DLBCL)是否实现两年无事件生存,即DLBLC患者早期复发的预测。方法根据无事件生存期,将患者分成早期复发和非早期复发,并以此为标签构建分类模型。首先对数据进行了归一化处理,然后用LASSO进行了特征选择,因数据类别不平衡,分别采用了SMOTE(synthetic minority over-sampling technique)、Borderline-1 SMOTE、Borderline-2 SMOTE与ADASYN(adaptive synthetic sampling)四种方法平衡数据,之后构建了基于支持向量机的多核模型作为最终的分类器,并与AdaBoost、随机森林和以高斯核、多项式核为内核的单核支持向量机进行比较,最终实现对新诊断病例早期复发的预测。结果在本文所有模型中,采用LASSO加Borderline-1 SMOTE的多核模型(accuracy=0.87,precision=0.87,recall=0.87,f1=0.87,AUC=0.87)取得了最优的分类性能。采用SMOTE的随机森林模型(accuracy=0.84,precision=0.85,recall=0.87,f1=0.79,AUC=0.83)、Borderline-2 SMOTE的随机森林(accuracy=0.84,precision=0.85,recall=0.87,f1=0.79,AUC=0.83)两种集成模型的分类性能也较好,但都低于多核支持向量机模型。两种单核支持向量机性能较差。结论本文构建的所有模型中,经过LASSO和Borderline-1 SMOTE重采样的多核支持向量机性能最优,可为DLBCL早期复发预测提供参考。

关 键 词:弥漫大B细胞淋巴瘤  早期复发  多核学习  不平衡数据
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号