共查询到20条相似文献,搜索用时 140 毫秒
1.
2.
《中国卫生统计》2020,(3)
目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。 相似文献
3.
目的分析拟行肝胆胰外科大手术的老年患者的营养状态与衰弱、肌肉衰减症的相关性。方法选择2020年12月至2022年9月在北京医院肝胆胰外科连续入组的拟行肝胆胰外科大手术的老年住院患者144例。应用营养风险筛查2002量表进行营养风险筛查, 采用全球营养领导层诊断营养不良标准进行营养不良诊断, 采用Fried氏衰弱表型5项量表评估衰弱, 应用亚洲肌肉衰减症工作组2019标准进行肌肉衰减症评估。分析营养状态、衰弱、肌肉衰减症患病率和重叠率, 以及营养状态对衰弱和肌肉衰减症的影响。结果患者平均年龄(70.10±7.44)岁, 营养风险发生率73.6%(106/144), 营养不良发生率68.1%(98/144), 其中重度营养不良34.7%(50/144);衰弱发生率20.8%(30/144), 肌肉衰减症发生率35.4%(51/144)。营养风险、重度营养不良、肌肉衰减症及衰弱的患病率随年龄增长呈上升趋势, 但随体重指数增加呈下降趋势。肌肉衰减症与营养不良的重叠患病率为35.4%(51/144), 衰弱与营养不良的重叠患病率为19.4%(28/144), 肌肉衰减症与衰弱的重叠患病率为14.... 相似文献
4.
目的 将随机森林算法用于类风湿性关节炎病例对照研究的高维甲基化数据的分析,并探讨应用效果。方法 实例数据来自基因表达数据库(gene expression omnibus,GEO),检索号为GSE42861,包含354名病例、335名对照,本文选取类风湿性关节炎相关基因区域所在的第9号染色体,共纳入2 433个胞嘧啶-磷酸-鸟嘌呤双核苷酸(cytosine-phosphate-guanine pairs of nucleotides,CpGs)位点。利用随机森林计算变量的重要性评分并排序;对排序后的变量进行逐步随机森林过程,寻找最有可能与结果存在关联的变量子集;对降维后的变量子集进行逐步Logistic回归。结果 逐步随机森林筛选出80个重要的CpG位点,Logistic回归模型中有13个位点具有统计学意义。纳入这些位点建立Logistic回归模型,该模型的预测正确率达88.29%。结论 随机森林算法可以大大减少噪音变量,提高检验效能,适用于高维甲基化数据分析。 相似文献
5.
目的 利用随机森林算法对农村地区≥50岁男性的艾滋病歧视现状及其影响因素进行分析,提出针对性反歧视干预措施。方法 2021年8—12月,采用艾滋病知识问卷、中文版Zelaya艾滋病歧视量表对彭州市3个乡镇240名听说过艾滋病的中老年男性进行面对面访谈式问卷调查。使用随机森林算法对变量进行重要性排序并降维,将筛选后的变量纳入有序logistic回归。结果 在240名农村中老年男性中,平均年龄(66.01±8.42)岁,艾滋病知识知晓率为29.6%,艾滋病歧视总得分均值为(3.00±0.68)分,在歧视各维度中,耻辱偏见得分最高。艾滋病知识知晓率与艾滋病歧视总得分呈负相关(r=-0.203,P=0.002)。随机森林算法显示,变量数为5时袋外估算误差率最低,依次为艾滋病知识得分、个人月收入、年龄、居住情况、文化程度。有序logistic回归分析显示,艾滋病知识得分低(OR=0.762,95%CI:0.672~0.863)、60岁及以上年龄组(OR=1.927,95%CI:1.029~3.534)、独居(OR=2.902,95%CI:1.089~7.736)、小学及以下者(OR=2.036,... 相似文献
6.
目的 分析围绝经期综合征的影响因素,为其疾病防治提供参考。方法 通过滚雪球法对陕西省468例45~60岁女性进行在线问卷调查,采用随机森林算法对围绝经期综合征影响因素的重要性进行排序并降维,将选择的变量集纳入Ordinal logistic回归分析模型,分析影响因素的方向和OR值。结果 随机森林算法显示,OOB误差率最低时的变量数为5,居于前5的变量依次是体力活动水平、年龄、月经状况、自评健康状况和生育次数。Ordinal logistic回归分析显示,与低体力活动相比,中等(OR=0.251,95%CI:0.142~0.433)、高(OR=0.008,95%CI:0.004~0.016)体力活动水平;与自评健康状况不满意相比,自评健康一般(OR=0.614,95%CI:0.402~0.953)、满意(OR=0.412,95%CI:0.233~0.735),是围绝经期综合征的保护因素(P均小于0.05)。与月经状况正常相比,月经紊乱(OR=2.592,95%CI:1.611~4.203)、绝经(OR=2.573,95%CI:1.453~4.575);与生育0次相比,生育2次(OR=2.... 相似文献
7.
《预防医学情报杂志》2021,(6)
肌肉衰减症是一种与增龄相关的老年退行性疾病,是导致老年人日常活动受限、摔倒、骨折、住院的重要因素。2016年世界卫生组织已将肌肉衰减症列入国际疾病分类表(ICD-10-CM,代码M62.84)。SARC-F量表是近年来建立起来的一种肌肉衰减症筛查工具,能快速的对肌力和肌功能进行评估,无需依赖于昂贵的仪器设备测量肌肉质量,具有廉价、简便的优势。本文旨在介绍SARC-F量表及其筛查效果和局限性,以促进SARC-F量表的应用和发展。 相似文献
8.
目的 探索随机生存森林在大规模测序肺癌随访研究资料中的降维效果,为进一步建立预后预测模型提供依据.方法 利用随机生存森林法对120位肺癌患者399个单核苷酸多态性(single nucleotide polymorphisms,SNPs)位点进行降维分析,筛选出重要性评分较高且错分率较低的SNPs子集,再对该子集建立多元Cox比例风险模型,并利用交叉验证法评价模型的预测效果.结果 随机生存森林法筛选出25个重要的SNPs,控制临床协变量(临床分期、是否手术、组织病理学类型)的多元Cox比例风险模型显示有4个位点有统计学意义.交叉验证结果表明,该模型的平均准确度达83.63%.结论 对高维关联性研究数据利用随机生存森林法先去噪降维,再作进一步分析,有助于后续预后预测模型的建立. 相似文献
9.
目的:利用空间分析描述流动矿工结核病健康教育空间分布与空间聚类,再利用随机森林模型和logistics有序回归筛选影响流动矿工人口结核病健康教育的因素,加强流动矿工人口的结核病管理。方法:基于2017年全国流动人口动态监测调查数据,使用全局和局部空间自相关描绘结核病健康教育空间分布格局,使用随机森林算法对影响因素进行重要性排序并降维,将筛选后的变量纳入有序logistic回归。结果:在1165流动矿工人口中共计545(46.78%)人接受结核病健康教育,矿工中男性比重较大,年龄大部分集中于30~50岁。流动矿工的结核病健康教育水平较高的地区分布在四川、陕西和山西。通过全局空间自相关分析,显示流动矿工接受结核病健康教育的分布具有一定空间集聚特征。随机森林模型显示,变量数为10时袋外估算误差率最低,依次为年龄,教育,和谁来往,就业身份,居住意愿,和谁流动,周劳动时间,性别,婚姻,参保情况。有序logistics回归分析显示,小学及以下(OR=1.585,95%IC:0.074~0.847)、无固定雇主的雇员(0.538,95%IC:-1.225~-0.016)、家庭型或团体性迁移(0.71... 相似文献
10.
目的 基于机器学习算法探讨阿尔兹海默病发病的脂蛋白及代谢物影响因素。方法 从ADNI数据库中选取2012年诊断结果为正常(cognitive normal,CN)和阿尔兹海默病(Alzheimer disease,AD)的研究对象共314例,收集其脂蛋白及代谢物数据。采用随机森林、lasso回归、XGboost算法三种方法对变量进行重要性排序及筛选。利用三种方法筛选出的变量,结合研究人群的性别、年龄、婚姻状况构建随机森林模型,预测影响AD发病的重要因素。结果 三种方法共筛选出12个脂蛋白及代谢物变量,结合研究人群的年龄、性别、婚姻状况共15个变量被纳入随机森林模型。模型的准确率为84.13%、灵敏度为93.75%、特异度为53.33%、Kappa值为0.518 3、AUC(95%CI)为0.735(0.600~0.871)。根据随机森林模型中Mean Decrease Accuracy和Mean Decrease Gini两指标分别筛选出的排名前五的变量中均包含以下四个变量:大极低密度脂蛋白中的磷脂与总脂质之比(L_VLDL_PL_PCT)、年龄(AGE)、乳糜微粒和极大极低密度脂蛋白... 相似文献
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.