首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
目的探讨随机森林模型和决策树模型在肝硬化并发上消化道出血患者预后评估中的应用。方法利用logistic回归方法从肝硬化住院患者病历资料中筛选出与并发上消化道出血有关联的变量;以筛选出的变量作为输入变量,以是否出血作为结局变量,分别建立随机森林、决策树和传统logistic回归模型,通过受试者工作特征曲线(ROC)来评价三种模型的性能。结果 logistic回归、决策树和随机森林模型在测试集中的准确率分别为81.5%、75.1%和88.9%,三种模型的ROC曲线下面积(AUC)分别为0.854、0.720和0.909;在随机森林模型的变量重要性评分中,血糖、胆固醇、血清钾、总蛋白、碱性磷酸酶、尿素氮等指标得分较高,提示这些指标或有临床意义。结论随机森林模型在肝硬化上消化道出血患者的预后评估中具有较高的应用价值。  相似文献   

2.
目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。  相似文献   

3.
目的 利用重采样技术提高我国中老年居民糖尿病不平衡数据的分类预测效果。方法 采用随机欠采样、随机过采样、合成少数类过采样(synthetic minority oversampling technique, SMOTE)以及自适应合成抽样(adaptive synthetic sampling, ADASYN)四种重采样技术处理CHARLS数据库中糖尿病不平衡数据,比较重采样前后logistic回归、支持向量机、随机森林的分类性能,采用G-means和AUC评价模型的预测效果。结果 对CHARLS糖尿病不平衡数据集,logistic回归、支持向量机、随机森林模型的G-means分别为0.222 7、0、0,AUC分别为0.761 2、0.736 3、0.742 9,logistic回归模型显著优于支持向量机,模型准确率(χ2=1 231.501,P<0.001)及AUC值(Z=2.634, P=0.028)的差异均具有统计学意义。四种重采样技术处理后模型的G-means均提高,特别是SMOTE和ADASYN技术;此外,随机欠采样不能显著提高logistic回...  相似文献   

4.
支持向量机在建立冠心病早期诊断模型中的应用   总被引:1,自引:0,他引:1  
目的 探索支持向量机方法在建立冠心病早期诊断模型中的应用,为冠心病危险因素在早期诊断中的合理应用提供理论依据.方法 首先应用logistic回归分析方法筛选冠心病危险因素,将有统计学意义的危险因素与24 h动态心电图检查结果共同构建支持向量机模型,并应用测试数据集对各模型的诊断能力进行评价.结果 24 h动态心电图检查结果与危险因素共同构建的支持向量机模型较单独应用24 h动态心电图诊断有更好的诊断准确率和灵敏度,特异度较低.对应用不同变量构建的模型进行比较,应用24 h动态心电图,结合年龄、性别、糖尿病、高血压构建的模型诊断效果较好,准确率为70.35%,灵敏度为90.27%,特异度为34.76%.结论 应用支持向量机可以建立合适的冠心病早期诊断模型;结合主要危险因素进行冠心病的早期诊断可以提高诊断准确率.  相似文献   

5.
目的 探讨合成少数类过采样技术(SMOTE)结合机器学习模型在老年人是否具备健康素养预测评估中的应用。方法 利用单因素筛选从资料中筛选出与是否具备健康素养有关联的变量;以筛选出的变量作为输入变量,以是否具备健康素养为结局变量,分别在经SMOTE算法处理前后的数据集中建立logistic回归模型、随机森林和SVM模型,通过受试者工作特征曲线(ROC)来评价模型性能。结果 Logistic回归、随机森林和SVM在SMOTE算法处理前的测试集中的准确率分别为0.833、0.600和0.636,3种模型的ROC曲线下面积(AUC)分别为0.723、0.815和0.728;在SMOTE算法处理后的测试集中的准确率分别为0.936、0.908和0.890,3种模型的AUC分别为0.896、0.944和0.897。结论 随机森林模型在老年人是否具备健康素养的预后评估中具有较高的应用价值。  相似文献   

6.
目的 基于随机森林回归模型构建小空间尺度的登革热风险评估工具,为登革热防控提供依据。方法 以2012年1月至2014年9月登革热病例及相关因素数据为训练集,分别构建登革热流行频率、持续时间及强度风险指标的随机森林回归模型,以2014年10月至2015年12月登革热病例及相关因素数据为验证集,并对构建的模型进行评估。结果 频率、持续时间、强度指标与发病数指标的相关系数均>0.7。依据训练集构建的登革热流行频率、持续时间和强度风险指标的随机森林回归模型变量解释度分别为96.72%、91.98%和90.1%,提示模型拟合度较好;交叉验证法可见各模型均方误差分别0.001 9、1.424 6和1.881 1,均处于较低水平;比较随机森林回归、支持向量回归、广义线性模型和广义相加模型的准确性,随机森林回归和支持向量机等机器学习模型均方误差远低于广义线性模型和广义相加模型。结论 以登革热频率、持续时间及强度指标为结局变量,气象、环境及社会经济特征为预测变量构建的随机森林回归模型准确性较好,可作为登革热风险评估工具,为登革热防控工作服务。  相似文献   

7.
目的先心病数据存在类别不平衡问题,使先心病预测存在偏差,本文针对以上问题建立基于代价敏感性和概率校准的先心病概率预测模型,以期提高模型概率预测能力,为筛选先心病高危人群给予参考。方法构建调整惩罚权重的加权支持向量机(weighted support vector machine,WSVM)和加权随机森林(weighted random forest,WRF)的Platt和Isotonic regression(Iso)校准模型(WSVM-Platt,WRF-Platt,WSVM-Iso,WRF-Iso),同时与logistic回归模型进行对比。结果通过比较6种模型(WSVM-Platt,WSVM-Iso,WRF,WRF-Platt,WRF-Iso和logistic回归模型)的概率预测效果评价指标AUC(the area under the curves)、RMSE(root mean squared error)及SAR可得,以上6类模型均比较理想。6种模型中,WSVM的Platt校准模型的预测效果最优,logistic回归其次;对于WRF,WRF-Platt和WRF-Iso的预测效果均优于WRF;对于WRF和WSVM,Platt校准的概率预测能力均略优于Iso校准。结论针对极端不平衡数据,本文模型的预测结果较为理想。相比未校准模型,校准模型的预测效果更优,Platt校准预测效果略优于Iso校准,故本文构建的模型可为有效筛选先心病高危人群提供参考。  相似文献   

8.
目的比较SCAD-支持向量机、支持向量机和弹性网三种方法对基因表达谱数据的变量筛选和预测判别能力。方法根据设置的参数生成不同条件的基因表达谱模拟数据和实际数据,利用FDR、一致性错误率和ROC曲线下面积(AUC值)从三个方面评价三种方法的变量筛选和预测判别能力。结果模拟实验显示在差异变量数不变的情况下,随着差异变量间相关系数的增加,三种方法建立模型的变量筛选和预测判别能力均提高;当差异变量间相关系数不变时,随着差异变量数目的增加,SCAD-支持向量机和弹性网方法的变量筛选和预测判别能力均呈下降趋势,而支持向量机呈现提高趋势。结论 SCAD-支持向量机不仅改善了支持向量机不能直接进行变量筛选的不足同时提高了模型的精度以及判别的准确性。综合来看SCAD-支持向量机的变量筛选和预测判别能力更优,处理变量间有高度相关性的基因表达谱数据时可以获得更高的预测精度和更稳定的模型估计。  相似文献   

9.
目的 构建低增生性骨髓增生异常综合征(hypo-MDS)与再生障碍性贫血(AA)鉴别诊断的决策树、贝叶斯、卷积神经网络、改进的支持向量机四种模型并选择出最优模型。方法 收集2010—2019年华北理工大学附属医院的AA与hypo-MDS患者的病例资料,使用统计学方法筛选指标,将处理后的样本以4[DK]∶1随机分为训练集和测试集,构建决策树、贝叶斯、卷积神经网络、改进的支持向量机四种模型,采用五折交叉验证法多次重复验证,通过灵敏度、AUC等指标评价鉴别诊断效果。结果 hypo-MDS患者红细胞、血红蛋白含量等指标低于AA患者,成熟单核细胞比例等指标高于AA患者,年龄和职业分布也存在差异(P<0.05);最终选出21个特异性指标。四种模型的分类效果比较:灵敏度分别为82.56%、65.12%、87.21%、79.07%;AUC分别为0.81、0.68、0.82、0.83;准确率分别为75.32%、69.48%、77.27%、74.03%。对卷积神经网络的误判病例分析得出年龄、血成熟淋巴细胞等7个指标均存在差异(P<0.05)。结论 在决策树、贝叶斯、卷积神经网络、改进的支持向量机四种诊断模型中,卷积神经网络具有最佳分类效果。  相似文献   

10.
目的探讨基于平均影响值(MIV)的支持向量机(SVM)在遗传数据疾病分类预测和变量筛选中的应用,为遗传数据的疾病分类与特征提取方面提供方法学参考。方法以GAW18(genetic analysis workshop 18)数据为例,采用基于MIV的SVM建立预测模型,并和logistic回归模型、SVM、多层感知机和决策树分类模型进行比较分析,评价基于MIV的SVM预测分类和变量筛选效果。结果经过平均影响值的支持向量机算法处理后,六个SNPs位点(13_28567172、3_127394820、1_1658093、9_123969834、1_174996637、17_17498492)组合的变量子集,获得78.125%的分类准确率,明显优于其他分类模型。结论基于MIV的SVM能比较有效的在实现遗传数据变量筛选的同时提高分类预测能力,避免了变量间的交互作用,为探索各种疾病发病机制和寻找易感SNPs位点提供线索,具有一定的研究和应用价值。  相似文献   

11.
目的应用支持向量机模型法评估研究入境国际航行船舶携带输入外来医学媒介生物的风险。方法以中国第2大港、世界第5大港的宁波港作为研究范围,以2014年到港的国际航行船舶为研究对象,对834艘媒介生物阳性船舶和2 151艘媒介生物阴性船舶的33项指标展开调查,采集数据信息。对数据进行清洗及变量筛选后应用R语言编程实现支持向量机模型法建模训练,并以所建模型预测新到港的1 333艘次船舶外来媒介携带风险。结果经过12种支持向量机模型的筛选,以预测精度为判定指标,选定分类器与核函数两个参数分别为"nu-classification"和"高斯函数"的支持向量机模型为最优模型,并构建起基于支持向量机的外来医学媒介生物携带风险与入境国际航行船舶关联因子间的非线性关系模型。模型训练过程的正确分类率为78.89%,通过该模型预测船舶携带外来媒介风险与实际检疫结果的符合率达到82.52%,预测效果良好。结论针对高度不确定的非线性系统,应用支持向量机模型法可实现更加精确的预测功能,为国境卫生检疫风险评估及预警方面的研究提供理论基础。  相似文献   

12.
目的探讨基于错分代价的HingeBoost算法在二分类高维数据中分类判别的效果。方法通过模拟试验和实际代谢组学数据分析,对HingeBoost算法、AdaBoost算法、支持向量机、随机森林四种方法进行比较,并用ROC曲线下面积、灵敏度、特异度和错误率评价。结果模拟试验和真实代谢组数据分析显示,HingeBoost算法内部参数错分代价能影响分类结果的判别,在线性结构、同时存在大量噪声变量时分类效果优于其他三种算法。结论 HingeBoost算法将错分代价引入模型,达到减少假阳性错误或假阴性错误的目的,同时有很强的抗噪声能力,适用于高维代谢组学数据分析,值得进一步研究。  相似文献   

13.
支持向量机原理及其在医学分类中的应用   总被引:1,自引:0,他引:1  
目的 介绍一种具有较高精度的分类模型--支持向量机在解决分类问题时的应用.方法 以胃癌流行病学调查资料为例分别建立支持向量机、决策树、logistic 回归模型,比较三种模型性能优劣.结果 对于测试集样本SVM预测精度为99.052%,C5.0决策树预测精度为93.365%,logistic 回归预测精度为90.995%,SVM具有良好的泛化能力.结论 当传统统计分析条件不能得到满足或效果不佳时支持向量机能够达到良好的预测结果,在医学领域具有较好的应用前景.  相似文献   

14.
目的 探讨SAM与支持向量机相结合(SAM-SVM)的方法在高维数据中的变量筛选效果.方法采用R语言编程,根据SAM算法,按照变量重要性排序,通过支持向量机分类模型验证其筛选效果.经过多次迭代满足收敛条件时,自动选择"最优"模型.将该方法应用于真实高维数据考核其应用效果,并通过模拟试验验证其有效性.结果对3种疾病的真实高维基因表达数据分别采用上述方法进行变量筛选,均取得了良好的效果,模拟试验也显示使用筛选后的变量再利用支持向量机进行分类判别,具有较高的准确性.结论基于SAM的支持向量机逐步判别方法在解决小样本、非线性及高维问题中表现出许多潜在的优势,可以有效地用于分析高维基因表达数据的特征提取问题.  相似文献   

15.
目的应用不同机器学习算法预测男男性行为(MSM)人群HIV感染状况的比较。方法将四种机器学习算法(logistic回归、神经网络、随机森林和支持向量机)的预测结果和实验室的检测结果相比较,分类性能的评价指标采用ROC曲线下面积(AUC)、灵敏度、特异度和准确度(PRE)。结果四种算法在训练集和测试集上均具有较理想的分类效能,训练集的结果略好于测试集。和logistic回归分析相比较,其他几种算法均提高了分类预测效能:神经网络提高18.4%(AUC:0.909,95%CI:0.903~0.915),随机森林提高19.7%(AUC:0.922,95%CI:0.920~0.924),支持向量机提高22.3%(AUC:0.948,95%CI:0.947~0.949)。其中支持向量机的分类性能最好,分类的灵敏度为97.5%,特异度为99.1%,准确度(PRE)为98.9%。结论机器学习算法显著地提高了MSM人群中HIV感染的预测效能,可以较准确地识别MSM人群中HIV感染者与未感染者,为及时地提供预防与治疗服务提供了依据,同时避免了医疗资源的浪费。  相似文献   

16.
目的 本研究借鉴深度森林(deep forest)的思想,提出一种基于树的集成学习方法新思路,为以后相关的研究提供分析策略和思路。方法 使用2015年中国健康与养老追踪调查数据库,筛选与消化系统疾病有关的变量,通过“人工地”建立多层随机森林模型,对人群进行分类,再分别建立模型筛选变量,通过计算评价指标评价模型效果,从而选择更优的模型解释与消化系统疾病相关的变量。结果 本研究发现通过建立多层随机森林模型对人群分为两类后,再分别建立模型,各评价指标都有很大幅度提高。另外对两类人群分别构建随机森林模型后,根据变量重要性评分筛选出与消化系统疾病有关的重要变量,再建立logistic模型,结果显示,一类人群筛选出15个有统计学意义的变量,其中有13个危险因素,OR值由1.871至35.917,关联最强的是关节炎和风湿病,其次为肾脏疾病、过去一个月生过病、头痛或者颈部痛、胸背部或者腰臀部疼痛、心脏病等;2个保护因素为晚上的睡眠时间、血红蛋白值。另一类人群筛选出的相关变量与第一类人群大部分相同,但作用相反,OR值由0.067至0.771,并且对第一类人群危害最大的因素对第二类保护也最大。结论 对于病...  相似文献   

17.
目的分析缺血性脑卒中发病因素,建立缺血性脑卒中患病风险预测模型,为脑卒中的早期筛查与防治提供依据。方法应用统计学方法筛选与缺血性脑卒中患病相关的指标,通过支持向量机算法构建预测模型,并对模型进行评估。结果采用支持向量机算法构建的简单个人和复杂临床水平模型的训练集准确率分别为97.48%、97.09%,测试集准确率分别为91.47%、91.09%。结论支持向量机算法构建的风险预测模型,具有很好的时效性与准确性,对脑卒中早期筛查和干预具有一定的应用价值。  相似文献   

18.
目的 基于机器学习算法探讨阿尔兹海默病发病的脂蛋白及代谢物影响因素。方法 从ADNI数据库中选取2012年诊断结果为正常(cognitive normal,CN)和阿尔兹海默病(Alzheimer disease,AD)的研究对象共314例,收集其脂蛋白及代谢物数据。采用随机森林、lasso回归、XGboost算法三种方法对变量进行重要性排序及筛选。利用三种方法筛选出的变量,结合研究人群的性别、年龄、婚姻状况构建随机森林模型,预测影响AD发病的重要因素。结果 三种方法共筛选出12个脂蛋白及代谢物变量,结合研究人群的年龄、性别、婚姻状况共15个变量被纳入随机森林模型。模型的准确率为84.13%、灵敏度为93.75%、特异度为53.33%、Kappa值为0.518 3、AUC(95%CI)为0.735(0.600~0.871)。根据随机森林模型中Mean Decrease Accuracy和Mean Decrease Gini两指标分别筛选出的排名前五的变量中均包含以下四个变量:大极低密度脂蛋白中的磷脂与总脂质之比(L_VLDL_PL_PCT)、年龄(AGE)、乳糜微粒和极大极低密度脂蛋白...  相似文献   

19.
目的 借助数据挖掘技术,联合流行病学特征和临床症状资料构建肺癌危险度预测模型,评价各模型用于肺癌危险度预测的性能,并筛选出最优模型。方法 选取460例肺癌患者和560例肺良性疾病患者为研究对象,收集其流行病学特征和临床症状共16个自变量。将研究对象按照3∶1的比例随机分为训练集与测试集,应用支持向量机(support vector machine, SVM)、决策树C5.0和人工神经网络(artificial neural network, ANN)分别建立肺癌危险度预测模型,并比较不同模型的预测性能。结果 经特征提取,痰中带血、发热出汗和吸烟史等9个变量被筛选为有效变量,用来构建肺癌危险度预测模型。测试集中SVM、决策树C5.0和ANN模型的灵敏度分别为74.1%、62.5%和92.9%;特异度分别为76.2%、80.4%和64.3%;阳性预测值分别为70.9%、71.4%和67.1%;阴性预测值分别为79.0%、73.2%和92.0%;准确度分别为75.3%、72.5%和76.9%;曲线下面积分别为0.752(95%CI:0.694~0.803)、0.715(95%CI:0.655...  相似文献   

20.
目的 分析缺血性卒中患者(ischemic stroke, IS)在住院期间消化道出血(gastrointestinal bleeding, GIB)的发生情况,基于机器学习(machine learning, ML)方法构建缺血性卒中患者发生消化道出血的风险预测模型。方法 以中国卒中中心联盟数据库中新发缺血性卒中患者为研究对象,使用随机欠采样方法处理非平衡数据集,并使用logistic回归、支持向量机(support vector machine, SVM)以及三种集成学习模型随机森林(random forest)、XGBoost和CatBoost来构建预测模型,使用AUC、灵敏度、特异度和Brier分数等指标评价模型预测性能。结果 共纳入737786例新发缺血性卒中患者,发生消化道出血5373例(0.73%)。logistic回归、SVM、Random Forest、XGBoost和CatBoost的AUC分别为0.824±0.000、0.672±0.000、0.828±0.000、0.830±0.000、0.830±0.000,Random Forest、XGBoost和CatB...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号