首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
目的构建新型抗纤维化中药化合物虚拟筛选预测模型,并对模型的预测性能进行验证。方法通过对比使用随机森林与梯度提升决策树算法,实现化合物分子指纹的降维与特征优化。构建"特征优化—机器学习"的混合模型,将优化的特征作为输入分别送入逻辑回归、人工神经网络机器学习算法进行训练。使用准确率、召回率、F1值对不同组合的模型进行性能评价。根据模型性能结果确定抗纤维化中药化合物虚拟筛选预测模型。随后,对比此模型和分子对接模型对中药化合物的抗纤维化活性预测结果,进一步验证该模型的预测性能。结果随机森林模型准确率0.76,召回率0.75,F1值0.74,曲线下面积(AUC)值0.818;梯度提升决策树模型准确率0.76,召回率0.74,F1值0.72,AUC值0.829;人工神经网络模型准确率0.75,召回率0.75,F1值0.75,AUC值0.802;随机森林+逻辑回归模型准确率0.77,召回率0.76,F1值0.75,AUC值0.840;随机森林+人工神经网络模型准确率0.74,召回率0.84,F1值0.79,AUC值0.850;梯度提升决策树+逻辑回归模型准确率0.80,召回率0.80,F1值0.79,AUC值0.872;梯度提升决策树+人工神经网络模型准确率0.73,召回率0.91,F1值0.81,AUC值0.837。中药化合物姜黄素、甘草酸、羟基红花黄色素A、大黄素、绞股蓝皀苷分子对接活性结果与本模型预测结果一致。结论梯度提升决策树+逻辑回归模型表现较其他模型准确。通过对比该模型与分子对接模型,进一步确认了该模型在中药化合物预测方面的稳定性;且本模型具有高通量筛选的特性,可以弥补分子对接在筛选化合物效率方面的不足,可作为抗纤维化中药化合物虚拟筛选预测的新方法。  相似文献   

2.
应用机器学习方法构建早产儿和低出生体重儿的预测模型,包括逻辑回归、支持向量机和随机森林算法,运用交叉验证法得到不同算法的最优模型,综合准确率、F1值和AUC值评估3种模型的预测性能,结果表明基于随机森林算法的模型预测效果最好。  相似文献   

3.
目的 基于一项队列研究构建妊娠糖尿病患者产后血糖异常的风险预测模型,并分析比较两种模型的预测效果。方法 收集207例妊娠糖尿病患者的基本信息,按照7∶3比例将数据集划分为训练集和测试集,分别运用多因素Logistic回归和随机森林算法在训练集构建产后糖代谢异常风险预测模型,并在测试集中进行验证。结果 随机森林模型预测的准确率为0.890,精确度为0.830,召回率为0.800,F1得分为0.810,AUC为0.934;多因素Logistic回归模型预测的准确率为0.870,精确度为0.820,召回率为0.730,F1得分为0.760,AUC为0.908。结论 两种模型均具有良好的预测效能,但随机森林模型对妊娠糖尿病患者产后糖代谢异常风险的预测效果更好。  相似文献   

4.
目的 评价支持向量机(SVM)、随机森林(RF)、极限梯度提升(XGBoost)3种机器学习算法与Logistic回归在重症缺血性脑卒中30天死亡结局的预测效果。方法 使用2008年至2019年MIMIC-IV数据库中符合纳排标准的2358例重症缺血性脑卒中患者资料,分别用SVM、随机森林、XGBoost3种机器学习算法与Logistic回归结合合成少数类过采样(SMOTE)技术建立早期死亡预测模型,并使用通过受试者工作特征曲线下面积(AUC)、准确度、F1-score、布里尔分数等指标评价预测效果。结果 SVM、随机森林、XGBoost与Logistic回归模型在原始类不平衡数据死亡预测中AUC值分别为0.78、0.81、0.84、0.83。应用SMOTE合成数据集后,SVM、随机森林、XGBoost与Logistic回归模型的AUC值分别为0.72、0.84、0.83、0.83。除SVM 外,机器学习算法与Logistic回归之间有相似的预测能力,但准确率、布里尔分数等优于Logistic回归,综合分类性能更优。结论 机器学习算法在重症缺血性脑卒中早期死亡预测中性能较传统方法更优,在解决重症患者预后预测研究问题中具有优势。  相似文献   

5.
目的 探索重症老年患者(≥60岁)急性肾损伤早期连续风险预测的可行性,促进机器学习在临床决策支持中的应用。具体实现以6 h为单位连续预测重症老年患者在未来48 h的急性肾损伤发病风险,并探索可实现何种程度的早期预测,以及比较当前数据和累积数据的预测效果。方法 基于重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC)-Ⅲ,应用逻辑回归、支持向量机、随机森林和轻量梯度提升机(light gradient boosting machine,LightGBM)建模预测。基于曲线下面积(area under curve,AUC)、精确度和召回率进行结果评估。结果 共11 261条重症老年患者记录纳入研究。基于当前6 h数据预测时,LightGBM的AUC达0.845~0.925,随机森林、支持向量机和逻辑回归的最高AUC均低于0.73。基于入重症监护病房最初6 h数据,LightGBM效果最好,AUC达0.845。LightGBM应用当前数据比累积数据获得更高的AUC、精确度和召回率,随机森林、支持向量机和逻辑回归反之。结论 利用LightGBM对重症老年患者进行急性肾损伤早期连续预测切实可行,仅基于重症监护病房前6 h数据的预测结果就可以达到24 h积累数据的预测效果。此外,不同模型对数据的接收能力和适用性不同,LightGBM在当前数据中表现优于累积数据,其他3种模型在累积数据中表现优于当前数据。  相似文献   

6.
目的:利用机器学习算法预测影响脑卒中患者日常生活自理能力(activities of daily living,ADL)的风险因素,为其 ADL管理决策提供参考。方法:对2015年1月—2019年2月在南京医科大学附属第一医院康复医学中心治疗的423例脑卒中患者进行回顾性分析。根据Barthel指数(Barthel index,BI)评定量表,将患者分为ADL较好组(BI≥60分)和ADL较差组(BI<60分),并进行数据预处理。采用共线性诊断及最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)筛选特征变量。选择逻辑回归、支持向量机、随机森林(random forest,RF)、极限梯度提升及K最近邻5种机器学习算法进行预测建模,十倍交叉验证后,使用受试者工作特征曲线、受试者工作特征曲线下面积(area under curve,AUC)、精确召回率曲线、精确召回率曲线下的面积(area under the precision recall curve,PRAUC)、准确率、灵敏度、特异度分别对模型进行综合评估,引入 Shapley加性解释(Shapley additive explanation,SHAP)对最优机器学习模型进行可解释化处理。结果:经LASSO回归分析后,确定16个特征变量用于构建机器学习模型。RF模型具有最高的AUC(0.74)、PRAUC(0.64)、准确率(0.97)、灵敏度(0.75)和特异度(0.97)。SHAP 模型解释性分析显示,对 ADL 贡献度前 5 的特征中,Brunnstrom 分期(下肢)的影响最为显著,其次是 Brunnstrom分期(上肢)、D-二聚体、血清白蛋白水平及年龄。结论:RF模型预测脑卒中患者ADL的效能最优,为脑卒中患者 ADL管理决策提供了有价值的参考。  相似文献   

7.
目的 通过对比评估5个模型的性能,优选证候要素"气虚"的辅助诊断模型.方法 从前期构建的证候要素-症状数据表中筛选与"气虚"有关的症状后,依据特征筛选出排序前15的症状.按照7∶3划分训练集和测试集,并进行重新采样.分别以最佳参数构建5个机器学习模型(CART决策树、随机森林、K近邻、BP神经网络和支持向量机),以ROC曲线下面积(AUC)值、敏感度和特异度作为模型评价指标.结果 15个关键症状包括疲乏,舌淡,神疲,脉弱,气短,自汗,食欲不振,脉细弱,懒言,苔白,便溏,苔薄,心悸,头晕,脉虚.基于随机森林算法构建模型的分类效果最好,AUC值达到0.923.结论 在5个模型中,随机森林算法更加适用于构建证候要素"气虚"的辅助诊断模型.  相似文献   

8.
目的:构建3个2型糖尿病肾病的预测模型.方法:基于国家临床医学科学数据中心的《糖尿病并发症预警数据集》,采用多种预处理方法清洗数据,通过Logistic回归分析和互信息等方法筛选特征.选用提升决策树、决策森林和决策丛林3种集成学习模型进行训练,实现对2型糖尿病肾病的风险预测.采用准确率、精确率、召回率,F1值和AUC ...  相似文献   

9.
周建华  吴兴旺 《安徽医学》2023,44(12):1448-1451
目的 探讨基于三期CT图像的影像组学特征建立机器学习模型术前预测透明细胞肾细胞癌(ccRCC)WHO/ISUP核分级的价值。方法 回顾性收集2016年1月至2023年1月安徽医科大学第一附属医院经病理证实的236名ccRCC患者的3期(平扫期、皮髓质期、实质期)CT图像和临床病理资料。并按照7∶3的比例随机分为训练集和测试集,人工手动分割病灶后提取三期影像组学特征,并对提取得到的特征进行降维,筛选出最有价值的组学特征并用机器学习的方法建立3种机器学习模型,分别为逻辑回归(LR)、支持向量机(SVM)、随机森林(LR)。模型的诊断性能通过受试者工作特征曲线(ROC)及曲线下面积(AUC)来评估。结果 最终筛选得到15个有价值的特征用来构建模型,在测试集中3种机器学习模型的AUC值分别为0.797、0.753、0.761。结论 基于三期CT图像影像组学特征建立的机器学习模型在术前预测ccRCC的WHO/ISUP级别具有一定的价值。  相似文献   

10.
目的 基于电子病历系统结构化信息创建的临床数据库,通过机器学习算法进行数据预处理和特征选择,构建预测心力衰竭患者住院期间死亡和6个月内死亡预测模型,从而辅助识别高危患者,为治疗干预提供指导。方法 以PhysioNet网站上公开的一个数据集为研究数据来源,该数据集纳入了2016年12月至2019年6月在四川省自贡市第四人民医院住院的心力衰竭患者临床信息,利用Python进行数据预处理、特征选择,并构建Logistic回归及随机森林预后预测模型,以增大ROC曲线下面积(area under curve,AUC)为目标优化模型,并在测试集中以AUC、准确率、精确度、召回率和F1分数综合验证模型预测效果。结果 通过数据预处理共获得146项特征用于住院期间心力衰竭死亡预测建模,155项特征用于6个月内心力衰竭死亡预测建模,基于随机森林的建模方法用于住院期间死亡效果最佳,AUC为0.893 1;在6个月内死亡预测上,结合LASSO和RFE进行特征选择,筛选出包括出院去向(健康护理机构、家庭或未知)、入院病房(全科)、出院科室(心血管科)、Killip分级(Ⅰ、Ⅱ和Ⅲ级)、心肌梗死情况以及充血性心力衰竭情况共10个特征进行Logistic回归建模,AUC达到0.833 6,与基于全部特征进行随机森林特征效果(AUC=0.846 0)相当。结论 本研究探索出一套针对电子病历系统结构化临床数据进行数据预处理、特征工程、机器学习算法建模并验证模型的方法,利用真实世界数据构建兼顾预测准确性和高危个体检出率的心衰预后预测模型。  相似文献   

11.
背景气流受限程度是评价慢性阻塞性肺疾病(COPD)患者疾病进展的关键指标。然而由于检查禁忌、依从性等问题,导致部分患者难以开展相关检查,无法评价疾病严重程度。目的建立并评估基于机器学习算法的COPD患者重度气流受限风险预警模型。方法采用横断面设计调查2019年1月至2020年6月四川省某三甲医院的COPD住院患者,收集患者一般临床指标与肺功能检查数据。将数据按8∶2比例随机分为训练集和测试集,在训练集中使用4种缺失值填充方法、3种特征筛选方法、17种机器学习和1种集成学习算法构建216种风险预警模型。采用ROC曲线下面积(AUC)、准确率、精确率、召回率和F1值评价模型的预测性能,分别使用十折交叉验证法和Bootstrapping算法进行内部验证和外部验证。使用测试集数据进行模型测试和选择。使用后验法进行样本量验证。结果共纳入418例患者,其中212例(50.7%)患者存在重度以上气流受限风险。经4种缺失值处理和3种特征筛选后,共获得12个处理后的数据集及12种影响气流受限因素的重要性排序,结果显示,呼吸困难指数评分(mMRC)等级、年龄、体质指数(BMI)、吸烟史(有、无)、慢性阻塞性肺疾病评估表(CAT)评分、呼吸困难(有、无)在变量特征排序中居于前列,是构造模型的关键指标,对结果预测有重要作用。其中,采取不填充、Lasso筛选方法后,mMRC等级、吸烟史(有、无)、呼吸困难(有、无)为位居前3位的预测因子,mMRC等级占特征重要性的54.15%。使用不填充、Boruta筛选方法后,CAT评分、年龄、mMRC等级为位居前3位的预测因子,CAT评分占特征重要性的26.64%。使用17种机器学习和1个集成学习算法对12个数据集分别建模,共得216个预测模型。17种机器学习算法十折交叉验证结果显示,不同算法预测性能比较,差异有统计学意义(P<0.05),随机梯度下降算法的平均AUC最大,为(0.738±0.089)。使用Bootstrapping算法对测试集进行外部验证结果显示,不同算法所得模型的预测性能比较,差异有统计学意义(P<0.05),集成学习算法的平均AUC最大,为(0.757±0.057)。利用Bootstrapping算法对4种缺失值处理和3种特征筛选预测性能评价结果显示,当不填充和Lasso筛选时,可提高模型的性能,差异有统计学意义(P<0.05)。使用测试集数据对216个机器学习模型进行测试,最佳模型的AUC为0.790 9,准确率为75.90%,精确率为75.00%,召回率为78.57%,F1值为0.767 4。样本量验证结果提示研究样本量可满足建模需求。结论本研究建立并评价了COPD患者重度气流受限风险预警模型,mMRC等级、年龄、BMI、CAT评分、是否有吸烟史和呼吸困难是影响气流受限的关键指标。该模型预测效果良好,具有潜在的临床应用前景。  相似文献   

12.
目的:选择相应的机器学习算法构建二型糖尿病肾病风险预测模型,为疾病的早期预防提供科学依据。方法:基于解放军总医院提供的糖尿病数据集,通过对缺失值、异常值等进行一系列预处理,得到894条二型糖尿病患者数据。利用单因素逻辑回归筛选出24个有效检查指标作为特征,并基于随机森林、BP神经网络、支持向量机分别构建二型糖尿病肾病风险预测模型,同时对其查准率、召回率进行对比,以验证其应用性能。结果:随机森林预测模型的总体性能最优,3种算法的训练效果均较好。结论:二型糖尿病肾病风险预测模型能为疾病早期预防控制提供参考依据。  相似文献   

13.
目的:基于数据平台,应用机器学习算法构建术后急性中重度疼痛风险预测模型。方法:在数据平台中收集非日间且非局麻手术患者1 634例用于模型建立和验证,收集1 000例相同条件的患者用于外部验证;将患者分为干预组和对照组,使用术后运动VAS评分作为结局变量,采用机器学习算法构建预测模型,并以AUC、准确率、F1值等5种指标评估预测效果。结果:轻量级梯度提升机、随机森林、梯度提升、自适应提升4种模型在内部验证中AUC值均超过0.75;其中前3种模型在外部验证中AUC值均超过0.7;麻醉时长、手术时长、年龄、用药等变量在模型中展现出较高重要性。结论:基于数据平台和机器学习算法构建的术后急性中重度疼痛风险预测模型具有较好的准确性,可供临床参考。  相似文献   

14.
目的采用增强CT图像、不同机器学习模型建立食管鳞状细胞癌术前病理分化的影像组学模型,探讨影像组学模型术前预测食管鳞状细胞癌分化的可行性及价值。方法回顾性分析172例术后病理结果为食管鳞状细胞癌病例,分为分化良好组和分化不良组。将其增强CT图像以DICOM格式导入医准-达尔文系统,按3∶1随机分为训练集和测试集,提取静脉期CT图像的影像组学特征,应用最小最大值归一化法、最优特征筛选和最小绝对收缩和选择算子(LASSO)回归对其进行降维、筛选,分别构建支持向量机、随机森林和Logistic回归模型,利用5倍交叉验证对三种模型进行训练,绘制三种模型训练集和测试集ROC曲线,评估其诊断效能。结果三种影像组学模型的AUC均大于0.7,支持向量机模型AUC最高,AUC为0.88。不同分化组的临床炎性指标差异无统计学意义(P0.05)。训练集和测试集临床特征差异无统计学意义(P0.05)。结论基于增强CT三种影像组学模型可用于术前预测食管鳞状细胞癌病理分化程度。  相似文献   

15.
目的:当前用于预测心脏毒性的定量构效关系(quantitative structure activity relationship, QSAR)模型仅限于hERG通道抑制作用这一机制,应用范围较狭窄。本研究旨在构建包含各类心脏不良反应的QSAR模型,以应用于中药化学成分潜在心脏毒性的预测。方法: 从Toxicity Reference Database(ToxRefDB)和Side Effect Resource(SIDER)数据库中共收集1 109个具有心脏毒性的化合物和789个不具有心脏毒性的化合物作为构建QSAR模型的训练集,应用ADMET Predictor软件计算、筛选分子描述符,通过两种算法(支持向量机和人工神经网络)依次纳入不同数量分子描述符分别构建QSAR模型,通过10折交叉验证方法进行内部验证选择最优模型,然后通过查阅文献及数据库共收集19种具有心脏毒性和10种不具有心脏毒性的中药化学成分作为外部验证集,评价所建QSAR模型对于中药化学成分心脏毒性预测的适用性。结果: 经筛选后共有220种分子描述符参与建模,用支持向量机算法所建的最优模型为包含87种分子描述符的模型,其内部验证结果显示模型灵敏度为71%,特异度为70%,约登指数(Youden’s index)和马修斯相关系数(Matthews correlation coefficient)均为0.41。用人工神经网络算法所建的最优模型为包含13个神经元及87种分子描述符的模型,其内部验证结果显示模型灵敏度为78%,特异度为77%,约登指数和马修斯相关系数均为0.54。通过29种中药化学成分验证显示,支持向量机模型外部验证结果灵敏度为95%,特异度为40%,整体预测的准确率达到76%;人工神经网络模型外部验证结果灵敏度为95%,特异度为60%,整体预测的准确率达到83%。结论:应用人工神经网络算法构建的模型预测能力要优于支持向量机算法构建的模型,通过已知毒性的中药化学成分验证表明,此QSAR模型有良好的灵敏度和预测准确率,可以用于中药化学成分心脏毒性的预测。  相似文献   

16.
目的:基于多种机器学习方法,探讨薄子宫内膜患者在新鲜胚胎移植中发生早期流产的影响因素,并建立预测模型,为预防薄子宫内膜患者在进行新鲜胚胎移植中发生早期流产提供合理的指导思路。方法:纳入了首次进行新鲜胚胎移植的薄子宫内膜患者1153例,通过LASSO回归和随机森林递归特征消除(recursive feature elimination,RFE)筛选特征,建立6种机器学习模型,通过交叉验证、准确度、敏感性、召回率、f1值、ROC曲线下面积及校准曲线比较不同模型的性能。SHAP图用于解释影响早期流产的因素。结果:通过LASSO回归和随机森林RFE筛选出29个特征变量纳入六种机器学习模型,其中多层感知机模型对早期流产的区分度最佳,ROC曲线下面积为0.803(95%CI=0.772~0.834)。随机森林、XGBoost和AdaBoost模型的ROC曲线下面积都高于0.7。结论:开发了薄子宫内膜患者在新鲜胚胎移植中是否发生早期流产的机器学习预测模型,各种评价指标的验证表明该模型的性能良好,有助于临床医生对该人群患者的早期诊断,为未来改善早期流产高危患者的妊娠结局提供指导思路。  相似文献   

17.
目的:利用逻辑回归分析识别冠心病发作的危险因素,使用常见机器学习算法构建冠心病风险预测模型,为冠心病的早期预防与筛查提供理论参考。方法:通过对Kaggle发布的冠心病数据进行预处理和特征筛选后进行逻辑回归分析识别主要危险因素,选用逻辑回归、支持向量机、线性判别分析、决策树和随机森林5种常见机器学习算法进行冠心病发病预测。结果:性别、年龄、平均每日吸烟量、总胆固醇水平、收缩压和血糖水平是10年内冠心病发作的主要危险因素。选用的5种机器学习算法准确率与稳定性良好。与基于统计的线性判别分析相比,决策树与随机森林并未表现出明显的优越性。结论:机器学习技术适用于冠心病发作风险的预测,能够为冠心病的防控提供参考依据。  相似文献   

18.
目的 基于机器学习方法研究针对单相抑郁与双相抑郁脉图参数的特征差异。方法 采用道生中医四诊仪DS01-A信息采集系统,对31名单相抑郁患者与57名双相抑郁患者分别采集脉图信息,应用SPSS 26进行脉图参数比较,应用R 4.0.5建立向量机算法(support vector machines, SVM)与随机森林算法(random forest, RF)模型,评估模型性能并获得模型特征重要性排序。结果 单相抑郁与双相抑郁脉图参数在脉力、脉率、AD、T1/T4、H1、H3/H1、(H3-H1)/H1共7个变量差异具有统计学意义(P<0.05);SVM模型与RF的鉴别模型都具有较好的鉴别准确率和稳定性。SVM模型鉴别准确率为80.56%,曲线下面积(area under curve, AUC)值为83.04%;RF模型鉴别准确率为80.56%,AUC值为84.62%。模型特征重要性前5位分别为H4、H2、AD、AGE、(T4-T1)/T与H3、H4、AD、AGE、H2。结论 单相抑郁与双相抑郁在脉图参数上具有明显差异特征,可辅助临床医生进行单双相抑郁鉴别。  相似文献   

19.
目的探讨在代谢组学数据中服从正态分布的变量个数逐步增加时统计分类方法分类准确率的变化趋势。方法首先模拟产生11组代谢数据,且数据中服从正态分布的变量逐渐增加,然后用传统的非机器学习统计方法[Bayes判别、Fisher判别、偏最小二乘判别分析(PLS-DA)]和机器学习方法[随机森林(RF)、支持向量机(SVM)]进行统计分析,比较分类准确率的变化;最后用两个实例分析对模拟结果的合理性进行评价。结果代谢组学数据正态性对Bayes判别、Fisher判别、PLS-DA的分析结果影响较大,随着数据中服从正态分布的变量个数增加,分类准确率增大,而对RF和SVM基本没有影响。结论传统的非机器学习方法在统计分析过程中对数据正态性有一定的要求,而机器学习类的方法对数据正态性基本没有要求,且分类准确率一直保持较高的稳定状态。  相似文献   

20.
目的通过机器学习分析脑健康生活方式相关因素和人口统计学特征, 实现对贵州农村老年人轻度认知功能损害患病风险的评估效果研究。方法 2019年7—8月, 采用多阶段整群抽样方法, 选取贵州省1 235名60岁及以上的农村老年人为研究对象, 进行问卷调查和体格检查。采用简易智能状态量表(mini-mental state examination, MMSE)进行认知功能检测, 并基于12项脑健康生活方式相关因素和4项人口统计学特征进行重要特征及最优特征个数的选择。采用逻辑回归和随机森林算法构建贵州农村老年人轻度认知功能损害的患病风险评估模型, 并使用精确率、准确率、灵敏度、特异度、F1分数和受试者工作特征曲线下面积(area under curve, AUC)综合评估模型效能, 采用Delong法检验两模型间AUC值的差异。结果共检出轻度认知功能损害291例, 总检出率为23.56%(291/1 235)。逻辑回归和随机森林模型评估贵州农村老年人轻度认知功能损害患病风险的AUC值分别为0.758和0.820, 差异有统计学意义(均P<0.05)。其中随机森林模型的评估效果更佳, 精确率...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号