首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
目的:基于主成分分析(PCA)方法与随机森林算法拟合对乳腺癌进行分类预测的模型,对比模型在不同参数下的各个评估指标后选出最优参数,并生成最优模型。方法:基于南斯拉夫卢布尔雅那大学医疗中心肿瘤研究所分享的乳腺数据集,该数据集能够反映细胞核10项特征的平均值、标准误差及最大值的平均值三个维度,采用标准化缩放及PCA方法对数据进行处理,构建随机森林算法模型并对数据进行训练。结果:通过调整随机森林算法中不同主成分个数、树的深度、棵树等参数,构建模型准确率达95.4%,受试者工作特征(ROC)曲线下面积(AUC)值接近1,模型分类效果表现良好。结论:细胞核的三维特征作为判断恶性及良性的重要依据,通过不同模型算法及不同参数的设定可构建准确率更高且预测速度更快的模型,为乳腺癌治疗提供便捷、科学的手段,提高救治效率。  相似文献   

2.
目的提出一种基于表情符号的文本自动标注的方法,为文本情感分析提供方法学参考。方法从Blued软件抓取广东省用户的发帖文本,筛选出情感倾向明显的表情符号。基于筛选的表情符号生成训练集,并对含表情符号的训练文本进行自动标注。然后用机器学习的方法训练分类器,并在人工标注的测试集中验证,评估其分类效果。结果共选取标签表情符号174个,其中正向表情符号93个(53.5%),负向表情符号81个(46.5%)。纳入分析的文本共14.3万条,其中训练集13.0万条(90.9%),测试集1.3万条(9.1%)。朴素贝叶斯、逻辑回归、支持向量机、融合模型最高准确率分别为0.739、0.732、0.729、0.741。结论基于表情符号自动标注文本的方法可应用于文本情感分类。  相似文献   

3.
王福成    齐平  蒋剑军  黄永  杨晓玲 《现代预防医学》2020,(13):2310-2313
目的 针对铜陵市天桥社区居民体检数据中多因素、有效样本有限的情况,挖掘与分析高血压影响因素与因素间的交互效应,为高血压干预提供参考。方法 选取2017年该社区801例体检数据为研究对象,采用随机森林方法,筛选出重要性评分较大的特征,代入logistic完全二次回归模型,逐步回归分析影响因素及因素间的交互效应。结果 随机森林模型准确率83.67%,特征重要性前10项为年龄、糖尿病、锻炼频率、体质指数、总胆固醇、吸烟情况、饮酒情况、中心性肥胖、甘油三酯、血尿素氨。Logistic完全二次回归模型准确率84.17%,输出2条主效应、8条二次交互效应。主效应中有统计学意义(P<0.05)的特征有年龄、锻炼频率,二次交互效应中有统计学意义(P<0.05)的特征有年龄、糖尿病、体质指数、总胆固醇、吸烟情况、饮酒情况、甘油三酯、血尿素氨。结论 随机森林与logistic完全二次回归模型相结合,解决了经典方法难以从多因素、样本有限的数据中挖掘交互效应的问题,获得高血压影响因素与因素间的交互效应,为高血压干预提供有益的指导。  相似文献   

4.
目的分析患者体验文本,改善医疗服务质量,提升患者满意度,为大量患者体验文本提供有效的分析手段。方法对患者体验文本使用长短期记忆模型进行情感分类;对负向体验文本利用主题生成模型与点互信息进行主题分析。结果情感分类达到平均94.66%的精确率、94.77%的召回率与94.61%的F1值,提炼出负向患者体验文本包含的主题,并分析了各年度主题热度与变化趋势。结论该方法可以有效的识别负向患者体验文本,并进一步对负向体验文本的主题进行提炼与分析,有助于医院管理者从大量患者体验文本中及时了解患者感受,挖掘服务问题,提升管理效率。  相似文献   

5.
目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。  相似文献   

6.
目的 使用随机森林对职业健康监护数据和人群焦虑情况进行分析, 探讨数据挖掘方法的应用。
方法 收集某企业职业健康监护数据, 并使用GAD-7广泛性焦虑量表进行问卷调查, 然后用随机森林对职业健康监护数据以焦虑情况为结局变量进行分类。
结果 随机森林对焦虑情况的分类效果较好, 焦虑高分组错分率为14.62%, 焦虑低分组错分率为5.95%, 袋外数据误差率估计为10.27%。
结论 将职业健康监护数据与随机森林相结合, 能够为焦虑人群的早期发现、筛选和干预提供帮助, 为职业健康监护数据的利用提供新思路。
  相似文献   

7.
目的探讨随机森林模型和决策树模型在肝硬化并发上消化道出血患者预后评估中的应用。方法利用logistic回归方法从肝硬化住院患者病历资料中筛选出与并发上消化道出血有关联的变量;以筛选出的变量作为输入变量,以是否出血作为结局变量,分别建立随机森林、决策树和传统logistic回归模型,通过受试者工作特征曲线(ROC)来评价三种模型的性能。结果 logistic回归、决策树和随机森林模型在测试集中的准确率分别为81.5%、75.1%和88.9%,三种模型的ROC曲线下面积(AUC)分别为0.854、0.720和0.909;在随机森林模型的变量重要性评分中,血糖、胆固醇、血清钾、总蛋白、碱性磷酸酶、尿素氮等指标得分较高,提示这些指标或有临床意义。结论随机森林模型在肝硬化上消化道出血患者的预后评估中具有较高的应用价值。  相似文献   

8.
目的 基于随机森林回归模型构建小空间尺度的登革热风险评估工具,为登革热防控提供依据。方法 以2012年1月至2014年9月登革热病例及相关因素数据为训练集,分别构建登革热流行频率、持续时间及强度风险指标的随机森林回归模型,以2014年10月至2015年12月登革热病例及相关因素数据为验证集,并对构建的模型进行评估。结果 频率、持续时间、强度指标与发病数指标的相关系数均>0.7。依据训练集构建的登革热流行频率、持续时间和强度风险指标的随机森林回归模型变量解释度分别为96.72%、91.98%和90.1%,提示模型拟合度较好;交叉验证法可见各模型均方误差分别0.001 9、1.424 6和1.881 1,均处于较低水平;比较随机森林回归、支持向量回归、广义线性模型和广义相加模型的准确性,随机森林回归和支持向量机等机器学习模型均方误差远低于广义线性模型和广义相加模型。结论 以登革热频率、持续时间及强度指标为结局变量,气象、环境及社会经济特征为预测变量构建的随机森林回归模型准确性较好,可作为登革热风险评估工具,为登革热防控工作服务。  相似文献   

9.
  目的  利用随机森林算法构建孤独症谱系障碍(autism spectrum disorder, ASD)儿童快速辅助诊断模型,有助于ASD儿童的早期发现、早期诊断,减轻临床诊断及评估压力。  方法  采用机器学习中随机森林算法,应用社交反应量表(SRS)及文兰适应行为量表(VABS)对黑龙江省346名ASD儿童和90名健康儿童进行评估,并基于量表数据以及儿童基础信息构建预测模型,运用ROC曲线及准确率等指标评价模型拟合效果。  结果  得到的随机森林预测模型中,13个特征因素模型以及7个特征因素的预测模型准确率均达到0.9以上、灵敏度最高达到0.927,特异度最高达到0.936,AUC值为0.979;以年龄为筛选条件的模型准确率达到0.943,灵敏度达到0.959,特异度达到0.931,AUC值为0.978。3个模型的拟合和泛化效果都较为理想。  方法  采用社交及适应能力水平指标构建的随机森林模型可以较为精确辅助开展ASD的诊断,为开发快速筛查和诊断的辅助工具提供了科学依据。  相似文献   

10.
目的探讨和比较不同模型在零膨胀数据回归分析中的应用。方法在R语言中,拟合HIV合并血友病数据的对数线性模型、零膨胀模型、随机森林、决策树以及支持向量机模型,通过比较标准化均方误差和均方根误差,对模型进行评价与选择。结果从标准化均方误差和均方根误差来看,随机森林是对原始数据拟合的最好的模型,随后是支持向量机和决策树模型,而经典的计数模型表现则相对较差。结论在对零膨胀计数资料进行回归预测时,机器学习方法的效果优于经典的计数模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号