首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
目的 开发和验证基于机器学习算法的孕期大于胎龄儿(LGA)风险预测模型,并比较其与传统逻辑回归方法建模的性能差异。方法 研究对象来自"中国免费孕前优生健康检查项目",于2010-2012年在全国31个省市的220个县开展,覆盖全部农村计划妊娠夫妇,本研究选取分娩新生儿胎龄在24~42周内,单胎活产的所有育龄期夫妇及其新生儿为研究对象。应用10种机器学习算法分别建立LGA预测模型,评估模型对LGA的预测性能。结果 最终纳入104 936名新生儿,男婴54 856例(52.3%),女婴50 080例(47.7%),LGA的发生率为11.7%(12 279例)。经过下采样数据平衡处理后,机器学习方法建立模型的整体效能出现明显提高,其中以CatBoost模型在预测LGA风险方面表现最佳,模型的受试者工作特征曲线的曲线下面积(AUC)为0.932;逻辑回归模型表现最差,AUC仅为0.555。结论 与传统的逻辑回归方法相比,通过机器学习算法可建立更有效的孕期LGA风险预测模型,具有潜在的应用价值。  相似文献   

2.
雷丽    郭望    李运明   《现代预防医学》2021,(17):3259-3264
目的 利用机器学习算法与生存模型建立脂肪肝Joint联合预测模型,为有关单位进行脂肪肝健康管理提供理论依据。方法 选取2006—2016年某人群体检数据为研究对象,据模拟实验结果选择机器学习方法建立纵向亚模型,利用时依Cox模型建立生存亚模型,再联合建模。结果 XGBoost算法F-measure值最大,均方误差最小,建立纵向亚模型。XGBoost-Joint联合模型稳定性和拟合效果优于其他组合的Joint模型。结论 Joint联合模型将纵向亚模型与生存亚模型相联系,关联变量在模型中对脂肪肝患病风险的影响明显上升,说明纵向过程对生存结果的影响很大。  相似文献   

3.
目的建立非酒精性脂肪肝(NAFLD)的发生风险预测模型,为NAFLD的预防及发生提供管理策略。方法选取2015年1月至2018年7月大连医科大学附属第二医院健康管理中心年度体检数据库中18~59岁、至少有2次连续体检记录、基线未发生NAFLD且无重要指标缺失者的数据,观察结局为NAFLD。收集基本信息、体格检查、实验室检查和腹部超声检查资料,将所有研究对象随机分为建模组和验证组。采用SPSS 23.0进行χ2检验、t检验、秩和检验、单因素Cox回归分析。利用建模组资料进行多因素Cox回归分析选取预测指标,用RStudio软件绘制线图,构建NAFLD发生风险预测模型。通过一致性指数(C指数)和校正曲线对建模组和验证组模型的预测效果进行验证。结果本研究共纳入2377名研究对象,其中建模组1585人,验证组792人。本研究共有467人发生NAFLD(累积发病率为19.6%),平均随访时间为(27.06±8.02)个月。其中,建模组NAFLD发病人数为310人(发病率为19.6%),验证组NAFLD发病人数为157人(累积发病率为19.8%)。多因素Cox回归分析结果显示,高密度脂蛋白胆固醇水平(HR=0.334,95%CI:0.209~0.534)为NAFLD发病的独立保护因素,而体质指数(HR=1.220,95%CI:1.172~1.271)、甘油三酯(HR=1.114,95%CI:1.052~1.180)、低密度脂蛋白胆固醇(HR=1.252,95%CI:1.054~1.487)、丙氨酸氨基转移酶(HR=1.013,95%CI:1.005~1.021)、血尿酸(HR=1.003,95%CI:1.001~1.004)为NAFLD发病的独立危险因素(P<0.05,P<0.01)。利用上述影响因素成功构建NAFLD发生风险预测模型。建模组和验证组的C指数分别为0.789(95%CI:0.766~0.812)、0.777(95%CI:0.742~0.812),校正曲线显示模型预测结果与实际观察结果吻合良好。结论本研究构建的NAFLD发生风险预测模型可以准确地预测NAFLD的发生概率,为早期识别NAFLD高危人群提供新思路。  相似文献   

4.
目的  评价极端梯度提升(extreme gradient boosting, XGBoost)、支持向量机(support vector machine, SVM)和朴素贝叶斯等6种机器学习模型与传统logistic回归分析模型对小于胎龄儿(small for gestational age, SGA)的预测效能。方法  选取2012年3月―2016年9月在山西医科大学第一医院产科住院分娩的9 972例孕妇作为研究对象,采用问卷调查及从医院信息系统收集数据。依据分娩结局分为SGA组(n=1 124)与非SGA组(n=8 848),按7.50∶2.50比例划分训练集与测试集。采用多因素logistic回归模型筛选危险因素,基于XGBoost、SVM、朴素贝叶斯、梯度提升决策树(gradient boosting decision tree, GBDT)、K最近邻(k-nearest neighbor, KNN)算法及传统logistic回归分析模型方法分别建立预测模型,使用受试者工作特征曲线的曲线下面积(area under the curve, AUC)、准确率和精确度等指标比较预测性能。结果  Logistic回归模型结果显示,妊娠期高血压和子痫等7项变量是SGA的影响因素。将以上因素纳入预测模型,SVM算法构建的预测模型效能最佳,AUC达0.72,模型准确率为71%。传统logistic回归分析模型表现欠佳,AUC为0.71,准确率为66%。结论  基于机器学习算法尤其是SVM算法建立的SGA风险预测模型具有较好的效能,能够有效预测山西省SGA的发生,为实现SGA的一级预防提供参考。  相似文献   

5.
目的 探究机器学习方法对老年人高脂血症的预测价值,并从中分析老年人高脂血症的危险因素。方法 采用分层随机整群抽样方法抽取潍坊市9个县市区27个社区5 759位60岁及以上老年人,并收集这些老年人在2020年度的健康体检资料,排除缺失或异常资料,最终将4 534位老年人纳入研究。将这些老年人按照7∶3的比例随机划分为训练集和验证集,并采用单因素分析筛选出10个显著性变量,用于构建支持向量机、决策树、XGBoost、CATBoost和LightGBM风险预测模型,随后采用AUC(ROC曲线下面积)、精确率、准确率、召回率、F1值评价其性能。结果 CATBoost机器学习模型的综合性能最好,其AUC、精确率、准确率、召回率、F1值分别为0.82、76.49%、92.46%、78.68%、0.85。在CATBoost模型预测老年人高脂血症的风险过程中,9个变量对高脂血症风险预测较为重要,其重要程度由高到底排序依次为收缩压、腰围、空腹血糖、体质指数、舒张压、吸烟情况、年龄、饮酒情况和性别。而且经模型优化后发现,仅纳入这9个变量即可较好的预测风险。结论 基于CATBoost机器学习方法构建的老年人...  相似文献   

6.
目的 基于全基因组汇总数据的不同单核苷酸多态性(single nucleotide polymorphisms,SNPs)阈值,探索机器学习(machine learning,ML)与多基因风险评分(polygenic risk score,PRS)在阿尔茨海默症(Alzheimer’s disease,AD)遗传风险统计建模上的预测效果,为全基因组高维数据下的AD遗传风险预测提供更为快速有效的统计建模策略。方法 将SNPs按照不同阈值(1×10-8、1×10-7、1×10-6、1×10-5、1×10-4、1×10-3)进行划分,并基于PRS、least absolute shrinkage and selection operator(LASSO)、elastic net(EN)、ridge、random forest(RF)、extreme gradient bosting(XGBoost)模型对AD遗传风险预测进行统计建模。采用十折交叉验证,以AUC...  相似文献   

7.
目的了解乌鲁木齐市汉族和维吾尔族(简称维族)公务员非酒精性脂肪肝(NAFLD)的患病率及其与代谢综合征(MS)各组分的关系。方法对乌鲁木齐市2009年8月~2010年8月期间公务员体检资料进行单因素、Logistic回归、分层卡方分析两民族NAFLD与MS各组分,体检内容包括血压、体重指数、腹部B超、空腹血糖、胆固醇(CHOL)、甘油三酯(TG)、高密度脂蛋白(HDL-C)、低密度脂蛋白(LDL-C)、肝功能(ALT、AST、GGT)。结果 NAFLD总的患病率为34.09%,汉族和维族分别为33.7%和40.58%,差异有统计学意义(P﹤0.05);两民族MS各组分中高血压、2型糖尿病、血脂异常患病率差异无统计学意义,向心性肥胖患病率差异有统计学意义;NAFLD与MS各组分相关性差异均有统计学意义(P﹤0.05);两民族按体重分层后,脂肪肝检出率差异无统计学意义。结论 MS各组分均与NAFLD相关;乌鲁木齐市汉族和维族公务员脂肪肝的患病率存在差异;这种差异是由两民族的肥胖人口比例不同引起的。  相似文献   

8.
目的 基于集成四种机器学习算法建立哮喘疾病发病风险预测模型,为健康气象预报服务及公众防御提供依据。方法 收集、整理2012—2018年天津市某三甲医院哮喘病患者逐日就诊数据以及同期气象因子、环境因子、花粉等数据资料,采用主成分分析法选取最优因子,应用Stacking集成学习方法集成决策树、随机森林、XGBoost、LightGBM等四种机器学习算法,通过调节最优风险等级阈值、时间滞后、分季节等手段优化模型性能。结果 随机森林建模预测效果好于决策树及XGBoost、LightGBM;基于四个子模型进行多模型集成,相比随机森林模型,在易发、多发等级的预报能力提升约13%;当选择滞后时间为2~3 d,且分季节建模后,模型预测能力有进一步提升。结论 综合考虑多种气象因子、环境因子和花粉因素的多模型集成方法可应用于哮喘疾病的气象预测业务和服务。  相似文献   

9.
10.
妊娠期糖尿病是常见的妊娠合并症之一,严重危害母婴健康。为减少妊娠期糖尿病相关不良妊娠结局的发生,亟需进行早期筛查和预警。近年来国内外有很多学者致力于早期预测模型的研究,联合多指标建立了不同人群的风险预测模型。这些模型具有一定的预测价值,但仍需要多中心、大样本的临床数据进一步开展外部验证。本文从目前风险预测模型的建立、验...  相似文献   

11.
目的 基于特征选择和模型可解释方法构建易于理解的代谢综合征风险预测模型,探讨其在代谢综合征防控中的应用价值,为代谢综合征的早期防控提供方法学参考。方法 收集和清洗乌鲁木齐市某健康体检机构2018年体检数据,采用RFE、mRMR、Lasso三种特征选择方法结合变量重要性、LIME两种模型可解释方法对代谢综合征风险预测模型建模前后进行处理。结果 综合RFE、mRMR、Lasso三种特征选择方法的结果筛选出21个变量;基于特征选择结果构建的预测模型均具有较好的分类性能,其中XGBoost模型性能最优;利用变量重要性、LIME对XGBoost模型的解释可得,除传统的危险因素外,代谢综合征还与白细胞计数、高尿酸血症、谷氨酰转肽酶、丙氨酸氨基转移酶相关。结论 特征选择结合模型可解释方法运用于代谢综合征风险预测模型构建流程中,可辅助构建高分类性能及易于理解的代谢综合征风险预测模型,对代谢综合征的早期防制具有重要的实践意义。  相似文献   

12.
针对2型糖尿病(T2DM)并发症的诊断预测问题,传统检测方法主要通过血液和尿液检查来预测,这些方法既耗时又不能进行早期预测.目前,由于糖尿病发病率升高以及医疗数据的大幅增加,机器学习算法迅速发展为检测及诊断糖尿病的有效方法.用机器学习算法分析临床指标,探究2型糖尿病并发症的影响因素,构建并发症预测模型,可以很好地实现糖...  相似文献   

13.
目的 分析妊娠期糖尿病(GDM)的相关危险因素,建立妊娠期糖尿病发病风险预测模型,为个体GDM发病风险预测及早期干预提供依据。方法 回顾性分析919名患妊娠期糖尿病孕妇与同期分娩的949名未患妊娠期糖尿病孕妇的既往病历资料,采用单因素分析和多因素logistic回归分析孕妇孕早期GDM的独立危险因素,构建GDM发病风险预测模型,采用Homser-Lemeshow拟合优度检验、拟合优度校正图、受试者工作特征曲线 (ROC)对该模型进行评估,采用deLong’s test进行AUC显著性差异检验。结果 基于巨大儿史、糖化血红蛋白、空腹血糖、血红蛋白、白细胞计数、活化部分凝血活酶时间及胚胎移植GDM发病风险模型,拟合程度检验 P =0.443>0.05,验证集ROC曲线下面积( AUC )为0.836(95% CI :0.8019~0.838),灵敏度为78.8%,特异度为78.6%,与训练集ROC曲线下面积无显著性差异( P >0.05)。结论 基于危险因素构建的妊娠期糖尿病风险预测模型有较好的预测性能和泛化能力,能早期预测孕妇GDM发病风险并实施早期干预措施,从而降低GDM发病率。  相似文献   

14.
目的 通过机器学习算法,探究CatBoost模型在预测重症手足口病(HFMD)中的应用价值。方法 收集郑州市某医院2014年1月-2017年6月住院部诊治的2 983例HFMD患儿,使用R 3.4.3软件进行数据分析,构建CatBoost模型和其他普通模型,评估CatBoost模型的预测性能。结果 最终构建的CatBoost模型,预测正确率可达87.6%,人工神经网络模型位居第二(83.8%),其他(决策树、支持向量机、logistic回归、贝叶斯网络)模型预测正确率<80%。CatBoost算法模型ROC曲线下面积、灵敏度、特异度均高(分别为0.866、80.80%、92.33%),其中居前3位的预测变量依次为呕吐、肢体抖动和病原学结果。结论 CatBoost模型可以用于预测重症HFMD,相比于其他传统算法,具有较高的预测正确率和诊断价值。  相似文献   

15.
目的 联合使用遗传因素和吸烟信息构建中国汉族人群的肺癌风险预测模型。方法 基于中国汉族人群全基因组关联研究(GWAS)数据,根据样本地区来源将样本分为训练集(南京与上海:1 473 名病例vs. 1 962 名对照)和测试集(北京与武汉:858 名病例vs. 1 115 名对照)。系统整理已报道肺癌易感位点,在训练集中用逐步后退法筛选具有独立效应的位点,并通过加权法估算个体遗传得分用于建模。在训练集中分别构建基于吸烟信息、遗传得分和联合使用吸烟与遗传信息的3 种风险预测模型(吸烟模型、遗传效应模型和联合模型),并根据受试者工作特征(ROC)曲线、曲线下面积(AUC)、净分类指数(NRI)和整体鉴别指数(IDI)评价模型对肺癌风险预测的效能。对于构建的模型,进一步在测试集中进行验证。结果 在训练集中,联合模型、吸烟模型和遗传效应模型AUC分别为0.69(0.67~0.71)、0.65(0.63~0.66)和0.60(0.59~0.62)。在训练集和测试集中联合模型的风险预测效能高于吸烟模型或遗传模型,差异有统计学意义(P<0.001)。重分类结果显示,联合模型与吸烟模型相比,在训练集中NRI 增加4.57%(2.23%~6.91%),IDI 增加3.11%(2.52%~3.69%)。在测试集中,NRI和IDI 分别增加2.77%和3.16%。结论 遗传得分可以显著提高肺癌传统风险模型的预测效能。联合使用遗传因素和吸烟信息构建的中国汉族人群肺癌风险预测模型可用于筛选中国汉族人群中肺癌发病的高危人群。  相似文献   

16.
目的 探讨心血管病(cardiovascular disease, CVD)危险因素的风险特征重要度并优化CVD发生风险预测模型。方法 选取湖北省开展的“心血管病高危人群早期筛查与综合干预项目”中2015年10月—2020年11月纳入的初筛人群132 268例,采用随机梯度下降(SGD)、逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、K -近邻(KNN)和LightGBM等6种机器学习算法建立并优化CVD发生风险预测模型。结果 患有CVD人群的BMI(t = - 9.512,P<0.001)、WC(t = - 11.476,P<0.001)、SBP(t = - 38.533,P<0.001)、DBP(t = - 21.571,P<0.001)、脉压差(t = - 25.284,P<0.001)、TC(t = - 6.616,P<0.001)、LDL(t = - 7.374,P<0.001)、TG(t = - 5.572,P<0.001)、FBG(t = - 7.812,P<0.001)等指标水平均高于健康对照人群。SGD、LR、RF、SVM、KNN和LightGBM 6种机器学习算法建立的CVD风险预测模型AUC值分别为0.835、0.828、0.851、0.852、0.836和0.871,且在LightGBM算法预测CVD风险模型中排名前七的危险因素依次为:SBP、脉压差、DBP、年龄、WC、LDL-C和PEF。在优化的CVD风险预测模型中,仅纳入年龄、SBP、DBP、WC和PEF这5个变量的AUC达到0.867,即可较准确地预测CVD发生的风险。结论 LightGBM机器学习算法是最优拟合预测模型,且仅纳入年龄、SBP、DBP、WC和PEF这5个变量CVD风险预测模型的预测性能良好。  相似文献   

17.
慢性肾脏病(CKD)是全球重要的公共卫生问题, 严重危害人群健康。利用预测模型对人群未来一段时间的CKD发病风险进行分层, 针对高危人群采取干预措施是实现CKD一级预防的重要途径。世界范围内已经开发出了二十多个CKD发病风险预测模型, 我国学者也开发出了4个适用于中国人群的预测模型, 但目前的临床指南中尚未推荐使用任何专门的CKD风险预测模型。现有模型在结局定义、预测因子、缺失数据处理和建模方法选择方面仍有局限。在未来, 新兴生物标志物和多基因风险评分的应用以及机器学习方法的发展将为继续改进模型提供更多可能。  相似文献   

18.
目的 探讨极端学习模型在衡水市乙肝月发病率预测中的应用,并与神经网络模型比较预测效果。方法 收集2005年1月 - 2017年7月衡水市乙肝月发病率资料,并组成具有151个数据的时间序列,随机选择75%的数据进行学习建模,剩余25%数据作为一步预测的检验数据,其次使用前147个数据作为学习数据,后4个数据作为四步预测的检验数据,并对2种模型的预测效果进行对比。结果 极端学习机学习的MRE为0.03,一步预测MRE为:0.04,四步预测RE分别为:2.8%、7.73%、20.15%、35.43%,神经网络学习的MRE为:0.06,一步预测MRE为0.07,四步预测RE分别为7.34%、22.14%、82.30%、38.86%。结论 极端学习机模型学习和预测效果优于神经网络,它可以提高预测的精度,具有较高的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号