期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《中国卫生统计》2019,(2)

目的探讨随机森林模型和决策树模型在肝硬化并发上消化道出血患者预后评估中的应用。方法利用logistic回归方法从肝硬化住院患者病历资料中筛选出与并发上消化道出血有关联的变量;以筛选出的变量作为输入变量,以是否出血作为结局变量,分别建立随机森林、决策树和传统logistic回归模型,通过受试者工作特征曲线(ROC)来评价三种模型的性能。结果 logistic回归、决策树和随机森林模型在测试集中的准确率分别为81.5%、75.1%和88.9%,三种模型的ROC曲线下面积(AUC)分别为0.854、0.720和0.909;在随机森林模型的变量重要性评分中,血糖、胆固醇、血清钾、总蛋白、碱性磷酸酶、尿素氮等指标得分较高,提示这些指标或有临床意义。结论随机森林模型在肝硬化上消化道出血患者的预后评估中具有较高的应用价值。相似文献

2.

某医院体检人群糖尿病预测模型研究

白江梁张超彦李伟倪娜娜张莎胡升星刘宝花《实用预防医学》2018,25(1):116-118

目的探讨logistic回归和随机森林在体检人群糖尿病患病风险预测中的应用。方法选择2006年1月-2015年12月在北京航天总医院体检中心参加体检的非糖尿病者11 769例次,随机选取70%样本,以性别、年龄、BMI、吸烟史、饮酒史、高血压既往史、高血压家族史、糖尿病家族史、收缩压、舒张压、空腹血糖、总胆固醇、甘油三酯、脂肪肝等14个因素作为自变量,以5年内是否罹患糖尿病作为因变量,基于logistic回归和随机森林分别建立糖尿病预测模型。将预测模型应用于剩余30%样本,根据所得受试者工作特征曲线的曲线下面积(AUC)评价模型的预测效果。结果 Logistic回归预测模型和随机森林预测模型的AUC分别为0.912(95%CI:0.898~0.927)和0.919(95%CI:0.906~0.932),在最佳临界点,Logistic回归预测模型的灵敏度和特异度分别为80.8%和87.3%,随机森林预测模型的灵敏度和特异度分别为84.1%和85.3%。结论 Logistic回归预测模型和随机森林预测模型对体检人群的糖尿病患病风险均具有良好的预测能力。相似文献

3.

基于随机森林回归模型的登革热风险评估究

下载免费PDF全文

黄宇琳赵永谦曹峥刘涛邓爱萍肖建鹏张兵祝光湖彭志强马文军《华南预防医学》2019,45(1):26-31

目的基于随机森林回归模型构建小空间尺度的登革热风险评估工具,为登革热防控提供依据。方法以2012年1月至2014年9月登革热病例及相关因素数据为训练集,分别构建登革热流行频率、持续时间及强度风险指标的随机森林回归模型,以2014年10月至2015年12月登革热病例及相关因素数据为验证集,并对构建的模型进行评估。结果频率、持续时间、强度指标与发病数指标的相关系数均>0.7。依据训练集构建的登革热流行频率、持续时间和强度风险指标的随机森林回归模型变量解释度分别为96.72%、91.98%和90.1%,提示模型拟合度较好;交叉验证法可见各模型均方误差分别0.001 9、1.424 6和1.881 1,均处于较低水平;比较随机森林回归、支持向量回归、广义线性模型和广义相加模型的准确性,随机森林回归和支持向量机等机器学习模型均方误差远低于广义线性模型和广义相加模型。结论以登革热频率、持续时间及强度指标为结局变量,气象、环境及社会经济特征为预测变量构建的随机森林回归模型准确性较好,可作为登革热风险评估工具,为登革热防控工作服务。相似文献

4.

基于数据挖掘技术的肺癌危险度预测模型的构建

黄普超原慧洁张桂芳《实用预防医学》2022,29(11):1390-1394

目的借助数据挖掘技术,联合流行病学特征和临床症状资料构建肺癌危险度预测模型,评价各模型用于肺癌危险度预测的性能,并筛选出最优模型。方法选取460例肺癌患者和560例肺良性疾病患者为研究对象,收集其流行病学特征和临床症状共16个自变量。将研究对象按照3∶1的比例随机分为训练集与测试集,应用支持向量机(support vector machine,SVM)、决策树C5.0和人工神经网络(artificial neural network,ANN)分别建立肺癌危险度预测模型,并比较不同模型的预测性能。结果经特征提取,痰中带血、发热出汗和吸烟史等9个变量被筛选为有效变量,用来构建肺癌危险度预测模型。测试集中SVM、决策树C5.0和ANN模型的灵敏度分别为74.1%、62.5%和92.9%;特异度分别为76.2%、80.4%和64.3%;阳性预测值分别为70.9%、71.4%和67.1%;阴性预测值分别为79.0%、73.2%和92.0%;准确度分别为75.3%、72.5%和76.9%;曲线下面积分别为0.752(95%CI:0.694~0.803)、0.715(95%CI:0.655~0.769)和0.786(95%CI:0.730~0.835)。结论 ANN预测模型的整体性能优于SVM模型和决策树C5.0模型,在肺癌高危人群的筛查中具有潜在的应用价值。相似文献

5.

重采样技术在中老年居民糖尿病不平衡数据分类中的应用

下载免费PDF全文

张乐王如意杨慧朱素玲《现代预防医学》2023,(7):1339-1344

目的利用重采样技术提高我国中老年居民糖尿病不平衡数据的分类预测效果。方法采用随机欠采样、随机过采样、合成少数类过采样(synthetic minority oversampling technique, SMOTE)以及自适应合成抽样(adaptive synthetic sampling, ADASYN)四种重采样技术处理CHARLS数据库中糖尿病不平衡数据,比较重采样前后logistic回归、支持向量机、随机森林的分类性能,采用G-means和AUC评价模型的预测效果。结果对CHARLS糖尿病不平衡数据集,logistic回归、支持向量机、随机森林模型的G-means分别为0.222 7、0、0,AUC分别为0.761 2、0.736 3、0.742 9,logistic回归模型显著优于支持向量机,模型准确率(χ²=1 231.501,P<0.001)及AUC值(Z=2.634, P=0.028)的差异均具有统计学意义。四种重采样技术处理后模型的G-means均提高,特别是SMOTE和ADASYN技术;此外,随机欠采样不能显著提高logistic回... 相似文献

6.

基于机器学习的CatBoost模型在预测重症手足口病中的应用

下载免费PDF全文

王斌冯慧芬王芳秦新华黄平党德建赵敬易佳音《中国感染控制杂志》2019,18(1):12-16

目的通过机器学习算法,探究CatBoost模型在预测重症手足口病（HFMD）中的应用价值。方法收集郑州市某医院2014年1月-2017年6月住院部诊治的2 983例HFMD患儿,使用R 3.4.3软件进行数据分析,构建CatBoost模型和其他普通模型,评估CatBoost模型的预测性能。结果最终构建的CatBoost模型,预测正确率可达87.6%,人工神经网络模型位居第二（83.8%）,其他（决策树、支持向量机、logistic回归、贝叶斯网络）模型预测正确率<80%。CatBoost算法模型ROC曲线下面积、灵敏度、特异度均高（分别为0.866、80.80%、92.33%）,其中居前3位的预测变量依次为呕吐、肢体抖动和病原学结果。结论 CatBoost模型可以用于预测重症HFMD,相比于其他传统算法,具有较高的预测正确率和诊断价值。相似文献

7.

基于重采样和Voting异质集成的分类模型在肝硬化并发肝性脑病风险预测中的探索性研究北大核心CSCD

王旭春翟梦梦任浩李美晨全帝臣张岩波刘近春仇丽霞《中国卫生统计》2022,(4):545-549

目的针对肝硬化并发肝性脑病风险预测的因素具有高维性、冗余性及类间不均衡的特征,研究变量筛选后的重采样和Voting异质集成分类模型的风险预测性能。方法收集2006年1月-2015年12月某三甲医院消化内科肝硬化住院患者950例,68例并发肝性脑病,采用logistic逐步回归进行风险预报因子初筛;再采用SMOTE重采样技术及其改进算法处理不平衡数据;最后采用SVM、MLP、随机森林以及综合以上三种算法预测结果的Voting异质集成分类算法构建肝硬化并发肝性脑病的风险预测模型。结果logistic回归筛选了7个风险预报因子,采用重采样技术后的分类模型的预测性能整体上优于不平衡数据模型,以SVM-SMOTE最优;相同重采样技术后的Voting异质集成与随机森林分类模型的预测性能优于SVM和MLP,其中Voting异质集成分类模型的性能略高于随机森林。综合各模型性能可知,采用SVM-SMOTE重采样技术处理的Voting异质集成模型在识别肝硬化并发肝性脑病的效果最好,测试集各评价指标值分别为:AUC=0.947、准确率=0.877、精确度=0.898、召回率=0.855、F1分数=0.876。结论针对肝硬化并发肝性脑病风险预测因素的高维性、冗余性及类间不均衡的特征,本文所提出的基于logistic逐步回归特征筛选、SVM-SMOTE重采样的Voting异质集成模型的预测效果较为满意。相似文献

8.

贵阳市大学生健康素养及影响因素分析

曹友琴荣冬芸赵晓宁陈兰王乔荣曹煜《中国校医》2021,35(9):645

目的了解贵阳市大学生健康素养水平和影响因素,为高校开展健康促进工作提供参考。方法于2019年9月—12月对多阶段分层整群随机抽样抽取的4所高校的1 064名在校大学生采用健康素养问卷进行面对面调查,使用SPSS 24.0进行χ2检验和多因素Logistic回归分析。结果贵阳市大学生健康素养总体水平为26.2%。基本知识和理念、健康生活方式与行为、基本技能素养水平依次降低。多因素logistic回归分析显示,性别、民族、健康教育课程是大学生健康素养水平的影响因素(OR值分别为0.716、1.445、1.687),男生、少数民族、未修健康教育课程大学生健康素养水平均较低,差异均有统计学意义(P<0.05)。结论贵阳市大学生健康素养水平有待提升,高校有针对性地加强大学生健康素养促进工作,提高整体健康素养水平。相似文献

9.

西藏自治区山南市某中学高中生健康生活方式与行为素养现况和影响因素分析

周苍海杨人贵《实用预防医学》2019,26(9):1129-1130

目的了解西藏自治区山南市高中生健康生活方式与行为素养水平及其影响因素,为有效提高藏区学生健康素养水平,改善藏区学生健康状况提供理论依据。方法对山南市某中学600名高中生进行健康素养问卷调查,分析其健康素养的具备情况。结果本次共调查山南市某中学高中生569人,具备健康生活方式与行为素养52人,具备比例为9.14%,具备水平较低。不同年级学生健康生活方式与行为素养水平差异有统计学意义(χ²=40.308,P＜0.001)。结论山南市某中学高中生健康生活方式与行为素养水平较低,相关部门应进一步加强健康教育与健康促进工作,采取有效措施促进学生养成健康的生活方式和行为习惯。相似文献

10.

西安地区孕妇健康素养状况及影响因素调查

下载免费PDF全文

王悦孟冰伟赵琛《华南预防医学》2022,48(11):1429-1432

目的调查西安地区孕妇健康素养状况,并探讨其相关影响因素。方法随机抽取西安地区内3家综合性三甲医院和2家妇幼专科医院,选取2021年3—12月在抽中医院建卡并计划住院分娩的孕妇作为调查对象,对其一般资料和健康素养水平进行调查,并采用单因素和多因素分析方法对孕妇健康素养的影响因素进行分析。结果共有效调查1 008名孕妇,婚姻状态均为已婚,年龄20~45岁,平均年龄（30.18±4.17）岁,以28~35岁为主（59.42%）。孕妇总体健康素养得分为（42.83±11.92）分,最低分为6分,最高分为82分,健康素养具备率为8.93%（90/1 008）。其中健康基本技能掌握的具备率最高,为40.28%（406/1 008）,其次为健康基本知识与理念和健康生活方式与行为,具备率分别为14.68%（148/1 008）、9.42%（95/1 008）。多因素Logistic回归分析显示,孕周、流动人口、孕妇文化程度、丈夫文化程度、孕妇职业、丈夫职业、担心怀孕影响工作、家庭人均月收入、孕妇健康素养测评次数和主动学习母婴知识是孕妇具备健康素养的影响因素（均P<0.05）。结论西安地区孕妇的健康素养具备率较低,可围绕孕周、流动人口、是否担心怀孕影响工作、家庭人均月收入及孕妇及其丈夫的文化程度和职业等因素制定相应的干预措施,以提高其健康素养水平。相似文献

11.

老年患者中央导管相关血流感染风险预测评分模型构建与验证

下载免费PDF全文

王力红魏楠赵霞张京利赵会杰马文晖韩叙《中国感染控制杂志》2019,18(3):225-231

目的构建老年患者中央导管相关血流感染(CLABSI)风险预测评分模型,为筛选高危人群,有效预防与控制老年患者血流感染提供依据。方法依据纳入排除标准,收集2015年1月1日—2017年12月31日住院期间曾留置中央导管的老年患者病例资料,按照7∶3的比例随机分为建模组和验证组(随机种子为20180708),对建模组数据进行危险因素识别,构建logistic回归模型,根据β值赋予各危险因素相应的分值,建立感染风险评分模型,利用受试者工作特征(ROC)曲线评价模型的预测准确度;依据建立的感染风险评分模型对验证组病例进行评分,利用ROC曲线评价模型的预测准确度。利用R软件构建决策曲线。结果 logistic回归分析结果表明:本次住院手术次数≥3次、住ICU日数≥2 d、中心静脉置管日数≥7 d、使用抗菌药物等是老年患者发生CLABSI的独立危险因素;风险评分模型中相应的分值分别为3、4、4、9分,得分13～17分为高风险人群;评分模型在建模组数据中ROC曲线下面积(AUC)为0.74;依据验证组患者风险得分情况绘制ROC曲线,曲线下面积(AUC)为0.70。决策曲线显示,在阈值0.01～0.05区间内风险评分模型的净获益较高。结论建立的风险评分模型具有较好的判别效度和应用价值,可用于老年患者CLABSI的易感高危人群识别,做到早期预防与控制。相似文献

12.

三种统计分析方法在基因表达谱数据中的比较研究

史晓雯肖纯刘芸良刘艳《实用预防医学》2018,25(2):155-159

目的比较SCAD-支持向量机、支持向量机和弹性网三种方法对基因表达谱数据的变量筛选和预测判别能力。方法根据设置的参数生成不同条件的基因表达谱模拟数据和实际数据,利用FDR、一致性错误率和ROC曲线下面积(AUC值)从三个方面评价三种方法的变量筛选和预测判别能力。结果模拟实验显示在差异变量数不变的情况下,随着差异变量间相关系数的增加,三种方法建立模型的变量筛选和预测判别能力均提高;当差异变量间相关系数不变时,随着差异变量数目的增加,SCAD-支持向量机和弹性网方法的变量筛选和预测判别能力均呈下降趋势,而支持向量机呈现提高趋势。结论 SCAD-支持向量机不仅改善了支持向量机不能直接进行变量筛选的不足同时提高了模型的精度以及判别的准确性。综合来看SCAD-支持向量机的变量筛选和预测判别能力更优,处理变量间有高度相关性的基因表达谱数据时可以获得更高的预测精度和更稳定的模型估计。相似文献

13.

基于随机森林算法构建孤独症谱系障碍儿童辅助诊断模型

下载免费PDF全文

李雨彤周勇王佳鞠文静潘施旭王露茜王忆军《中国学校卫生》2021,42(8):1180

目的利用随机森林算法构建孤独症谱系障碍(autism spectrum disorder, ASD)儿童快速辅助诊断模型,有助于ASD儿童的早期发现、早期诊断,减轻临床诊断及评估压力。方法采用机器学习中随机森林算法,应用社交反应量表(SRS)及文兰适应行为量表(VABS)对黑龙江省346名ASD儿童和90名健康儿童进行评估,并基于量表数据以及儿童基础信息构建预测模型,运用ROC曲线及准确率等指标评价模型拟合效果。结果得到的随机森林预测模型中,13个特征因素模型以及7个特征因素的预测模型准确率均达到0.9以上、灵敏度最高达到0.927,特异度最高达到0.936,AUC值为0.979;以年龄为筛选条件的模型准确率达到0.943,灵敏度达到0.959,特异度达到0.931,AUC值为0.978。3个模型的拟合和泛化效果都较为理想。方法采用社交及适应能力水平指标构建的随机森林模型可以较为精确辅助开展ASD的诊断,为开发快速筛查和诊断的辅助工具提供了科学依据。相似文献

14.

Boosting算法结合SMOTE技术在青年男男性行为者HIV感染预测中的应用

王肖萌宋德胜张甜甜常琴雪王淳王柯云刘媛媛李长平崔壮马骏《中国卫生统计》2022,(1)

目的评价Boosting算法结合SMOTE技术预测青年男男性行为者(YMSM)HIV感染状况的性能。方法通过网络和现场抽取2018-2019年天津市YMSM 1179名,分别用XGBoost、LightGBM、CatBoost和logistic结合SMOTE技术建立预测模型,通过AUC、F1、Accuracy、Brier score等指标评价其分类性能。结果应用SMOTE合成数据后,logistic、CatBoost、LightGBM和XGBoost的AUC分别提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分类性能优于logistic模型。结论Boosting算法结合SMOTE技术为类不平衡数据的分类预测提供了新思路。相似文献

15.

黑龙江省贫困地区2020年居民健康素养水平及其影响因素分析

苏莹马志杰郭恂王莹《实用预防医学》2022,29(11):1333-1337

目的了解2020年黑龙江省贫困地区居民健康素养水平及其影响因素,为黑龙江省贫困地区居民的健康扶贫政策的制定提供依据。方法采用多阶段分层整群随机抽样方法,于2020年8—12月选取黑龙江省28个国家级贫困市县15～69岁6 762名常住居民为研究对象,进行健康素养水平问卷调查。结果 2020年黑龙江省贫困地区居民健康素养水平为14.33%。其中健康基本知识和理念、健康生活方式与行为和健康基本技能三方面水平分别为25.37%、14.72%、15.95%;科学健康观、传染病防治、慢性病防治、安全与急救、基本医疗和健康信息6类问题水平分别为37.02%、19.26%、17.79%、39.45%、20.72%、23.86%。进行多因素logistic回归分析结果显示,性别、文化程度、家庭平均年收入均是贫困地区居民健康素养水平的影响因素。结论黑龙江省贫困地区健康素养水平较低,应针对不同性别、文化程度和家庭平均年收入的居民开展健康教育活动,以提高居民的健康素养水平和生活方式。相似文献