首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
目的对山西省某三甲医院2011-2017年间血液科新诊断的弥漫大B细胞淋巴瘤患者(diffuse large B-cell lymphoma,DLBCL)是否实现两年无事件生存,即DLBLC患者早期复发的预测。方法根据无事件生存期,将患者分成早期复发和非早期复发,并以此为标签构建分类模型。首先对数据进行了归一化处理,然后用LASSO进行了特征选择,因数据类别不平衡,分别采用了SMOTE(synthetic minority over-sampling technique)、Borderline-1 SMOTE、Borderline-2 SMOTE与ADASYN(adaptive synthetic sampling)四种方法平衡数据,之后构建了基于支持向量机的多核模型作为最终的分类器,并与AdaBoost、随机森林和以高斯核、多项式核为内核的单核支持向量机进行比较,最终实现对新诊断病例早期复发的预测。结果在本文所有模型中,采用LASSO加Borderline-1 SMOTE的多核模型(accuracy=0.87,precision=0.87,recall=0.87,f1=0.87,AUC=0.87)取得了最优的分类性能。采用SMOTE的随机森林模型(accuracy=0.84,precision=0.85,recall=0.87,f1=0.79,AUC=0.83)、Borderline-2 SMOTE的随机森林(accuracy=0.84,precision=0.85,recall=0.87,f1=0.79,AUC=0.83)两种集成模型的分类性能也较好,但都低于多核支持向量机模型。两种单核支持向量机性能较差。结论本文构建的所有模型中,经过LASSO和Borderline-1 SMOTE重采样的多核支持向量机性能最优,可为DLBCL早期复发预测提供参考。  相似文献   

2.
目的 对山西省某三甲医院2011-2017年间血液科新诊断的弥漫大B细胞淋巴瘤患者(diffuse large B-cell lymphoma, DLBCL)是否实现两年无事件生存,即DLBLC患者早期复发的预测。方法 根据无事件生存期,将患者分成早期复发和非早期复发,并以此为标签构建分类模型。首先对数据进行了归一化处理,然后用LASSO进行了特征选择,因数据类别不平衡,分别采用了SMOTE(synthetic minority over-sampling technique)、Borderline-1 SMOTE、Borderline-2 SMOTE与ADASYN(adaptive synthetic sampling)四种方法平衡数据,之后构建了基于支持向量机的多核模型作为最终的分类器,并与AdaBoost、随机森林和以高斯核、多项式核为内核的单核支持向量机进行比较,最终实现对新诊断病例早期复发的预测。结果 在本文所有模型中,采用LASSO加Borderline-1 SMOTE的多核模型(accuracy=0.87,precision=0.87,recall=0.87,f1=0.8...  相似文献   

3.
目的对某肿瘤医院血液科2011-2015年283名弥漫大B细胞淋巴瘤患者进行达到完全缓解后三年内的复发风险预测,为患者三年内的复发情况提供参考。方法用logistic回归进行复发影响因素分析。采用重采样(包括SMOTE等三种方法)处理不平衡数据,同时基于boosting集成分别构建C5.0决策树、SVM和logistic回归复发风险预测模型。结果由logistic回归可知,Ki-67(P=0.006,OR=1.826)、LDH是否升高(P=0.012,OR=2.084)、原发纵膈肿物(P=0.033,OR=0.333)及疾病等级(P=0.001,OR=1.605)是弥漫性大B细胞淋巴瘤患者三年复发的重要影响因素。通过将训练集与测试集回代对各种模型性能进行评价,并用五种评价指标的比较模型性能可知,集成模型均优于其对应的单个学习器;平衡后数据构建模型性能均优于未平衡数据构建模型,其中SMOTE最优;在测试集验证的模型中,经过SMOTE平衡数据构建SVMBOOST集成模型(准确率=0.93,F值=0.94,AUC=0.93,Rmse=0.26,G-mean=0.93,灵敏度=0.97)和C5.0BOOST模型(准确率=0.94,F值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,灵敏度=0.94),均有较优的表现。结论基于重采样和集成学习构建的经过SMOTE平衡后SVMBOOST模型达到预期效果。  相似文献   

4.
目的针对肝硬化并发肝性脑病风险预测的因素具有高维性、冗余性及类间不均衡的特征,研究变量筛选后的重采样和Voting异质集成分类模型的风险预测性能。方法收集2006年1月-2015年12月某三甲医院消化内科肝硬化住院患者950例,68例并发肝性脑病,采用logistic逐步回归进行风险预报因子初筛;再采用SMOTE重采样技术及其改进算法处理不平衡数据;最后采用SVM、MLP、随机森林以及综合以上三种算法预测结果的Voting异质集成分类算法构建肝硬化并发肝性脑病的风险预测模型。结果logistic回归筛选了7个风险预报因子,采用重采样技术后的分类模型的预测性能整体上优于不平衡数据模型,以SVM-SMOTE最优;相同重采样技术后的Voting异质集成与随机森林分类模型的预测性能优于SVM和MLP,其中Voting异质集成分类模型的性能略高于随机森林。综合各模型性能可知,采用SVM-SMOTE重采样技术处理的Voting异质集成模型在识别肝硬化并发肝性脑病的效果最好,测试集各评价指标值分别为:AUC=0.947、准确率=0.877、精确度=0.898、召回率=0.855、F1分数=0.876。结论针对肝硬化并发肝性脑病风险预测因素的高维性、冗余性及类间不均衡的特征,本文所提出的基于logistic逐步回归特征筛选、SVM-SMOTE重采样的Voting异质集成模型的预测效果较为满意。  相似文献   

5.
目的 探讨加权随机森林和代价敏感支持向量机模型在慢性心衰死亡风险评估中的应用。方法 利用AUC-RF自变量筛选方法选出与心衰死亡的相关因素,将选出的变量作为输入变量,预后有无死亡作为结局变量构建传统随机森林、支持向量机、logistic回归、加权随机森林和代价敏感支持向量机分类预测模型。结果 AUC-RF筛选出的变量中有中枢系统疾病史、肾功能不全史、心包积液、BMI、中性粒细胞比值、肾小球滤过率、N端前脑钠肽等指标重要度较高,提示这些指标或有临床意义。评价指标有灵敏度、特异度、准确度、G-means、F-measure和AUC值,logistic模型评价指标的中位数分别为:78.46%、63.19%、81.4%、0.6933、0.467和0.7003;加权随机森林评价指标分别为:78.08%、82.74%、85.96%、0.8086、0.4853和0.8109;代价敏感支持向量机评价指标分别为:75.38%、72.49%、88.8%、0.7402、0.4749和0.7940。结论 加权随机森林模型对心衰患者预后死亡预测性能较高,该模型有助于临床医生识别心衰死亡危险因素,具有较高应用价值...  相似文献   

6.
目的 分析缺血性卒中患者(ischemic stroke, IS)在住院期间消化道出血(gastrointestinal bleeding, GIB)的发生情况,基于机器学习(machine learning, ML)方法构建缺血性卒中患者发生消化道出血的风险预测模型。方法 以中国卒中中心联盟数据库中新发缺血性卒中患者为研究对象,使用随机欠采样方法处理非平衡数据集,并使用logistic回归、支持向量机(support vector machine, SVM)以及三种集成学习模型随机森林(random forest)、XGBoost和CatBoost来构建预测模型,使用AUC、灵敏度、特异度和Brier分数等指标评价模型预测性能。结果 共纳入737786例新发缺血性卒中患者,发生消化道出血5373例(0.73%)。logistic回归、SVM、Random Forest、XGBoost和CatBoost的AUC分别为0.824±0.000、0.672±0.000、0.828±0.000、0.830±0.000、0.830±0.000,Random Forest、XGBoost和CatB...  相似文献   

7.
目的分析比较几种常用的非平衡分类技术在人群糖尿病疾病风险预测模型中的应用。方法利用中国慢性病前瞻性研究浙江省桐乡市项目点基线调查数据和随访数据,使用机器学习算法建立人群糖尿病发病风险的预测模型,同时探讨欠采样、过采样、SMOTE技术及替换切点技术对分类器性能的影响。结果本研究中神经网络预测模型的AUC值最高,达0.7971,经最优切点的选择和分类后,灵敏度和特异度分别为0.7149和0.7431,模型具有较高的预测能力,同时较好的平衡了灵敏度和特异度的分布。采样法对不同分类器的AUC值影响不同,一般欠采样比过采样具有更高的AUC值;随着SMOTE中少数类比例的上升,AUC出现下降的趋势。结论使用神经网络结合替换切点技术建立的人群糖尿病5年发病风险模型具有较高的预测能力,并能够较好的处理非平衡数据的影响。  相似文献   

8.
目的 探讨合成少数类过采样技术(SMOTE)结合机器学习模型在老年人是否具备健康素养预测评估中的应用。方法 利用单因素筛选从资料中筛选出与是否具备健康素养有关联的变量;以筛选出的变量作为输入变量,以是否具备健康素养为结局变量,分别在经SMOTE算法处理前后的数据集中建立logistic回归模型、随机森林和SVM模型,通过受试者工作特征曲线(ROC)来评价模型性能。结果 Logistic回归、随机森林和SVM在SMOTE算法处理前的测试集中的准确率分别为0.833、0.600和0.636,3种模型的ROC曲线下面积(AUC)分别为0.723、0.815和0.728;在SMOTE算法处理后的测试集中的准确率分别为0.936、0.908和0.890,3种模型的AUC分别为0.896、0.944和0.897。结论 随机森林模型在老年人是否具备健康素养的预后评估中具有较高的应用价值。  相似文献   

9.
目的采用logistic、随机森林和CatBoost结合过采样技术(synthetic minority over-sampling technique, SMOTE)技术对天津市某浴池MSM人群数据构建模型以预测HIV的感染风险,并评价三个模型的分类效果。方法利用10×10折交叉验证对模型进行训练和预测,使用网格搜索确定各模型的超参数。然后使用AUC、accuracy、brier score和F_1值对上述三种模型进行评价。结果在原始数据上,三种模型的表现基本一致,但在对类别比例不敏感的AUC和Brier score上,CatBoost的表现略优于其他两个模型。CatBoost、logistic和随机森林的AUC分别为0.798±0.026,0.792±0.037,0.934±0.040;Brier score分别为0.056±0.001、0.091±0.004和0.054±0.003。使用SMOTE后,CatBoost的性能明显优于其他两个模型。在测试集上,其AUC、accuracy、brier score和F_1值分别为0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007。结论可使用Catboost模型预测MSM人群中的潜在HIV感染者。  相似文献   

10.
目的 探讨SMOTE_ENN混合采样结合AdaBoost算法在不平衡临床数据分类模型中的预测效果。方法 采用网格搜索,设置不同采样比例,结合真实数据应用ROS_RUS、SMOTE_RUS、SMOTE_Tomek、SMOTE_ENN四种混合采样方法,分别基于DT、SVM、AdaBoost三种分类算法建模并比较性能。选取Recall、F1值、AUC三个评价指标,五折交叉验证重复三次取平均值。另选取两个UCI数据集对模型进行外部验证。结果 12个分类模型中,SMOTE_ENN混合采样结合AdaBoost的模型性能最优,Recall、F1值和AUC分别为0.747、0.751和0.776,且最佳采样率为50%SMOTE过采样联合70%ENN欠采样。结论 SMOTE_ENN混合采样结合AdaBoost模型可有效提升HT患者不平衡数据的临床结局预测效能,且按最佳比例抽样可有效解决以往重抽样没有明确采样率的问题。经公开的UCI数据集进一步验证后,该模型可推广应用。  相似文献   

11.
目的 针对阿尔茨海默病(AD)相关临床人群,包括认知正常(CN)、显著记忆障碍(SMC)、早期轻度认知障碍(EMCI)、晚期轻度认知障碍(LMCI)和AD进行多分类研究,以期实现AD计算机辅助诊断。方法 基于阿尔茨海默病神经影像学计划(ADNI)数据库中2 006例受试者(436例NC,261例SMC,323例EMCI,606例LMCI和380例AD),采用LASSO方法进行特征选择,SMOTE过采样方法处理类别不平衡问题,采用支持向量机、随机森林、逻辑回归和K近邻作为初级学习器,逻辑回归作为次级学习器,加权投票集成策略构建Stacking多分类诊断模型。结果 较于以上四种初级学习器,本研究构建的Stacking集成模型分类效果较好,稳定性高,在NC vs 非NC,SMC vs 非SMC,EMCI vs 非EMCI和LMCI vs AD之间分类准确率、召回率、F1 Score均值均在92%以上,AUC均值均在0.97以上。结论 本研究构建的AD多分类Stacking集成策略,具有较好的分类性能,可科学指导AD的预防与控制,为临床医生提供自动化的AD临床辅助诊断。  相似文献   

12.
杨磊  聂艳武  朱凯  周青  蔡雯 《现代预防医学》2021,(18):3270-3276
目的 基于机器学习( machine learning,ML)的不同算法构建新疆维吾尔自治区乌鲁木齐市非酒精性脂肪性肝病(nonalcoholic fatty liver disease, NAFLD)决策树、随机森林及支持向量机风险预测模型,与经典logistic回归预测模型进行对比分析,以筛选出NAFLD最佳风险预测模型。方法 选取2018年1月—2019年12月就诊并明确诊断为NAFLD的患者429例为病例组,同时选择同期体检的健康志愿者561例作为对照组,探讨NAFLD患者健康状况、生活方式及行为等环境影响因素,基于影响因素构建NAFLD经典logsitic回归预测模型,并运用R软件构建决策树、随机森林及支持向量机风险预测模型,绘制四种模型受试者工作特征曲线(receiver operating characteristic curve,ROC),计算曲线下面积(area under curve,AUC) ,运用“十折交叉验证法”(10-fold cross-validation)对各模型准确率、灵敏度、特异度等指标进行对比分析。结果 共纳入体质指数(P<0.001;OR = 14.479;95%CI:4.000~52.407)、腰臀比(P = 0.001;OR = 3.692;95%CI:1.713~7.956)、被动吸烟(P = 0.004; OR = 3.074; 95%CI:1.426~6.623)、主食品种(P = 0.001;OR = 4.938;95%CI:2.004~12.164)、高血压(P = 0.008 ;OR = 3.601;95%CI:1.407~9.219)、糖尿病(P = 0.018;OR = 4.719;95%CI:1.301~17.124)、血脂异常(P<0.001;OR = 8.538;95%CI:3.582~20.350)、食用红肉类频率(P<0.001;OR = 5.923;95%CI:2.487~14.106)、压力(P = 0.019;OR = 2.466;95%CI:1.158~5.252)、食用水果频率(P = 0.034;OR = 0.498 ;95%CI:0.261~0.949)、文化程度(P = 0.011;OR = 0.444;95%CI:0.238~0.828)11个预测因素构建经典logistic回归预测模型、决策树、随机森林及支持向量机风险预测模型。四种模型均具良好NAFLD风险预测能力,各模型准确率均大于0.80,灵敏度均大于0.85,Kappa值均大于0.65,阳性预测值、阴性预测值均大于或等于0.80;其中支持向量机具有最高的准确率(0.852)、特异度(0.855)、阳性预测值(0.877)及仅次于logsitic回归预测模型的AUC值(0.9086)。结论 综合分析可知,基于支持向量机算法的预测模型更具有优势,可以有效地预测NAFLD患病风险,更有助于NAFLD的预防、早期治疗和管理。  相似文献   

13.
目的评价Boosting算法结合SMOTE技术预测青年男男性行为者(YMSM)HIV感染状况的性能。方法通过网络和现场抽取2018-2019年天津市YMSM 1179名,分别用XGBoost、LightGBM、CatBoost和logistic结合SMOTE技术建立预测模型,通过AUC、F1、Accuracy、Brier score等指标评价其分类性能。结果应用SMOTE合成数据后,logistic、CatBoost、LightGBM和XGBoost的AUC分别提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分类性能优于logistic模型。结论Boosting算法结合SMOTE技术为类不平衡数据的分类预测提供了新思路。  相似文献   

14.
目的 基于机器学习模型(machine learning,ML)和logistic回归构建预测结直肠腺癌5年生存结局的组合模型。方法 选取SEER数据库中12 980名患者,采用传统logistic回归分析影响患者5年存活的相关因素。使用相关因素构建以极限梯度提升、自适应提升、支持向量机、随机森林、回归决策树的预测概率为自变量,分别纳入极限梯度提升、自适应提升和logistic回归做最终预测的组合模型,比较各组合模型5年结直肠腺癌生存预测效果。结果 年龄、手术、化疗、分化程度、T分期、N分期、M分期、CEA状况和婚姻,9个因素影响结直肠腺癌患者5年生存。组合模型logistic+Adaboost+RF+XGboost,内部测试集AUC、准确率、F1分数分别为0.861、0.801、0.832。外部验证集AUC、准确率、F1分数分别为0.833、0.806、0.869。组合模型效能优于单一模型。结论 机器学习组合模型更具有优势,可以有效预测结直肠腺癌5年生存结局,辅助临床工作者制定诊疗方案和优化癌症防治措施。  相似文献   

15.
目的 基于随机森林模型分析化学治疗患者经外周静脉置入中心静脉导管(PICC)置管后导管相关感染的影响因素。方法 选取接受化学治疗并留置PICC的400例肿瘤患者,采用计算机产生随机数法将就诊患者以3∶1的比例分为训练集(300例)和测试集(100例)。根据感染发生情况将训练集患者分为无感染组和感染组,比较两组的临床资料,采用多因素logistic回归模型及随机森林的集成分类算法分析患者PICC置管后出现导管相关感染的影响因素,并对比二者的预测效能。结果 训练集300例化学治疗患者中,32例患者出现导管相关感染(10.67%),与无感染组比较,感染组患者单次置管穿刺次数更多,PICC留置时间更长,导管移动比例、合并糖尿病比例及换药频次更高,白细胞计数(WBC)水平及免疫功能更低(均P<0.05)。PICC留置时间、导管移动情况、合并糖尿病情况、换药频次、WBC及免疫功能均为患者PICC置管后导管相关感染的独立影响因素(均P<0.05)。随机森林模型显示不同影响因素的重要程度排序结果依次为:PICC留置时间、导管移动情况、合并糖尿病情况、WBC、换药频次及免疫功能。随机森林模型...  相似文献   

16.
目的 探讨logistic回归和随机森林在体检人群糖尿病患病风险预测中的应用。 方法 选择2006年1月-2015年12月在北京航天总医院体检中心参加体检的非糖尿病者11 769例次,随机选取70%样本,以性别、年龄、BMI、吸烟史、饮酒史、高血压既往史、高血压家族史、糖尿病家族史、收缩压、舒张压、空腹血糖、总胆固醇、甘油三酯、脂肪肝等14个因素作为自变量,以5年内是否罹患糖尿病作为因变量,基于logistic回归和随机森林分别建立糖尿病预测模型。将预测模型应用于剩余30%样本,根据所得受试者工作特征曲线的曲线下面积(AUC)评价模型的预测效果。 结果 Logistic回归预测模型和随机森林预测模型的AUC分别为0.912(95%CI:0.898~0.927)和0.919(95%CI:0.906~0.932),在最佳临界点,Logistic回归预测模型的灵敏度和特异度分别为80.8%和87.3%,随机森林预测模型的灵敏度和特异度分别为84.1%和85.3%。 结论 Logistic回归预测模型和随机森林预测模型对体检人群的糖尿病患病风险均具有良好的预测能力。  相似文献   

17.
Coronary artery disease (CAD) is the leading global cause of mortality and has substantial heritability with a polygenic architecture. Recent approaches of risk prediction were based on polygenic risk scores (PRS) not taking possible nonlinear effects into account and restricted in that they focused on genetic loci associated with CAD, only. We benchmarked PRS, (penalized) logistic regression, naïve Bayes (NB), random forests (RF), support vector machines (SVM), and gradient boosting (GB) on a data set of 7,736 CAD cases and 6,774 controls from Germany to identify the algorithms for most accurate classification of CAD status. The final models were tested on an independent data set from Germany (527 CAD cases and 473 controls). We found PRS to be the best algorithm, yielding an area under the receiver operating curve (AUC) of 0.92 (95% CI [0.90, 0.95], 50,633 loci) in the German test data. NB and SVM (AUC ~ 0.81) performed better than RF and GB (AUC ~ 0.75). We conclude that using PRS to predict CAD is superior to machine learning methods.  相似文献   

18.
  目的  评价Logistic回归算法和随机森林算法对2型糖尿病患者3个月后血糖控制情况的预测效果,并探究血糖控制的影响因素。  方法  收集顺义、通州区2型糖尿病患者的基线调查和随访信息,以患者3个月后糖化血红蛋白是否大于6.5%作为结局分类变量,使用随机森林算法和Logistic算法建立预测模型,通过受试者工作特征曲线下面积(area under the curve,AUC)、灵敏度等指标比较预测效果。  结果  患者血糖控制效果的影响因素有基线空腹血糖(P < 0.001)、病程(P < 0.001)、吸烟(P=0.026)、静态活动时间(P=0.006)、体重指数(超重P=0.002,肥胖P=0.011)、手环使用(P=0.028)和糖尿病饮食(P=0.002)7个因素;Logistic回归预测模型的AUC为0.738,灵敏度为72.9%,特异度68.1%,准确率71.2%,随机森林模型的AUC为0.756,灵敏度74.5%,特异度69.5%,准确率72.8%。  结论  随机森林算法预测效果优于Logistic回归预测模型,可应用于血糖控制效果预测,辅助糖尿病患者的管理。  相似文献   

19.
目的 基于logistic回归和随机森林构建急性缺血性卒中(acute ischemic stroke,AIS)3个月预后预测模型,并比较预测效果。方法 使用中国国家卒中登记Ⅱ(China National Stoke Registry Ⅱ,CNSRⅡ)数据库中的AIS数据,备选预测因子包括人口学特征、既往病史、用药史、临床检测指标、入院情况、院内情况、出院情况等不同时间点的变量。将数据按照8∶2随机分为训练集和测试集,在训练集中分别使用logistic回归和随机森林构建AIS患者3个月预后预测模型,在测试集中使用受试者工作特征曲线下面积(area under curve, AUC)评价区分度,使用Homser - Lemeshow检验和校准图来评价校准度。结果 最终纳入数据分析共9 847例AIS患者,其中61~80岁6 093例,男性6 477例,预后不良1 515例。在测试集中,logistic回归与随机森林的AUC差异无统计学意义(0.821,95%CI:0.815~0.827vs 0.825,95%CI:0.821~0.829,P = 0.268),且两类模型的校准度均较好(χ2 = 5.67,P = 0.684 vs χ2 = 8.52,P = 0.385)。结论 基于logistic回归和随机森林建立的AIS患者3个月预后预测模型的区分度和校准度均较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号