首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 218 毫秒
1.
基因表达数据判别分析的随机森林方法   总被引:2,自引:1,他引:2  
目的探讨随机森林算法在基因表达数据分类研究中的应用。方法通过实际基因表达数据考核其应用效果,并通过模拟试验进一步验证和研究在存在大量无差异表达基因情况下对分类产生的影响。结果随机森林算法对基因表达数据的分类具有较高的准确性,但随着基因数量的增加其判别效果呈下降的趋势,在差异表达基因之间具有相关性时,下降趋势明显减慢,能够获得较理想的分类效果。结论随机森林算法对基因表达数据的分类研究有较好的判别效果。  相似文献   

2.
目的 探讨SAM与支持向量机相结合(SAM-SVM)的方法在高维数据中的变量筛选效果.方法采用R语言编程,根据SAM算法,按照变量重要性排序,通过支持向量机分类模型验证其筛选效果.经过多次迭代满足收敛条件时,自动选择"最优"模型.将该方法应用于真实高维数据考核其应用效果,并通过模拟试验验证其有效性.结果对3种疾病的真实高维基因表达数据分别采用上述方法进行变量筛选,均取得了良好的效果,模拟试验也显示使用筛选后的变量再利用支持向量机进行分类判别,具有较高的准确性.结论基于SAM的支持向量机逐步判别方法在解决小样本、非线性及高维问题中表现出许多潜在的优势,可以有效地用于分析高维基因表达数据的特征提取问题.  相似文献   

3.
目的 随着现代基因组学、蛋白组学和代谢组学等研究兴起,产生了大量的高维组学数据.对高维组学数据的分析,其重要任务是对样品进行分类及筛选出具有生物学意义的特征标志物.本项研究针对这一问题,采用目前公认效果较好的Boosting方法进行高维数据分析,并探讨Boosting算法在高维数据研究中的应用条件和效果.方法 通过多次迭代,Boosting能够将基础弱分类器(决策树)形成优效分类器.模拟试验研究和验证了在含有大量无差异变量情况下对分类及变量重要性度量的效果,并通过实际基因表达数据进一步考核其应用效果.结果 模拟试验显示,应用Boosting方法与决策树所建的组合模型对分类具有较高的准确性,并对噪声变量的干扰具有一定的抵抗能力.分类的同时能够对变量的重要性进行有效的评价;在保留了所有基因的情况下,对结肠癌真实基因表达数据的分类效果甚为理想,并为医学研究中结肠癌致病基因的发现提供了线索.结论 基于决策树所构造的Boosting组合分类模型,可以有效地应用于高维数据的判别分类及变量重要性评价的问题.Boosting算法在解决小样本、多噪声的高维问题中表现出许多潜在的优势,与目前使用的其他方法相比,对于具有复杂结构高维数据,Boosting算法有其明显的自身特点,如运算速度快,适用性更强,软件实现相对容易等,是一种值得推荐和进一步研究的方法.  相似文献   

4.
基因表达数据的随机森林逐步判别分析方法   总被引:3,自引:2,他引:3  
目的给出一种新的随机森林算法,它能在建模过程中自动对变量进行筛选,建立“最优”判断模型。方法采用变量重要性评分和逐步迭代算法选择有作用的变量;通过实际基因表达数据考核其应用效果,并使用R语言编程做模拟试验验证其有效性。结果三种疾病基因表达数据的判别模型,在包含很少量的基因情况下便获得了理想的分类效果;模拟试验则显示在类间区分度较大的情况下,随机森林逐步判别分析的效果明显,能有效地将有作用的变量保留在模型中,提高模型的判别效果;在类间区分度不够大的情况下分类效果提高不明显。结论随机森林逐步判别分析可以有效地应用于基因表达数据的基因筛选和分类研究,但要特别注意由随机波动对分析结果造成的影响。  相似文献   

5.
张奇  荣雯雯  刘艳 《实用预防医学》2018,25(8):1018-1021
基因表达谱数据的分类算法有很多种,每种分类算法有其各自的特点,不同分类算法在不同基因表达谱数据中的分类效果也有所不同。本文主要对目前应用较多的四种分类算法(判别分析、决策树、支持向量机、集成算法)的特点和研究进展进行综述,为相关研究和应用提供科学指导。  相似文献   

6.
目的比较SCAD-支持向量机、支持向量机和弹性网三种方法对基因表达谱数据的变量筛选和预测判别能力。方法根据设置的参数生成不同条件的基因表达谱模拟数据和实际数据,利用FDR、一致性错误率和ROC曲线下面积(AUC值)从三个方面评价三种方法的变量筛选和预测判别能力。结果模拟实验显示在差异变量数不变的情况下,随着差异变量间相关系数的增加,三种方法建立模型的变量筛选和预测判别能力均提高;当差异变量间相关系数不变时,随着差异变量数目的增加,SCAD-支持向量机和弹性网方法的变量筛选和预测判别能力均呈下降趋势,而支持向量机呈现提高趋势。结论 SCAD-支持向量机不仅改善了支持向量机不能直接进行变量筛选的不足同时提高了模型的精度以及判别的准确性。综合来看SCAD-支持向量机的变量筛选和预测判别能力更优,处理变量间有高度相关性的基因表达谱数据时可以获得更高的预测精度和更稳定的模型估计。  相似文献   

7.
目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。  相似文献   

8.
支持向量机原理及其在医学分类中的应用   总被引:1,自引:0,他引:1  
目的 介绍一种具有较高精度的分类模型--支持向量机在解决分类问题时的应用.方法 以胃癌流行病学调查资料为例分别建立支持向量机、决策树、logistic 回归模型,比较三种模型性能优劣.结果 对于测试集样本SVM预测精度为99.052%,C5.0决策树预测精度为93.365%,logistic 回归预测精度为90.995%,SVM具有良好的泛化能力.结论 当传统统计分析条件不能得到满足或效果不佳时支持向量机能够达到良好的预测结果,在医学领域具有较好的应用前景.  相似文献   

9.
SVMs在基因表达谱数据分析中的应用   总被引:2,自引:1,他引:1  
目前,微阵列技术已被广泛应用于基因表达水平的录制实验。所获得的基因表达数据通常包括上万条基因的测量值,很多传统方法在处理这样的海量数据时都存在着问题。并且,由于制作工艺和经费的限制,实验所获得的数据集常含有较少的组织样本,而每一组织却包括上万条基因的表达水平,大多数有监督的方法应用效果都不理想。一种新的有监督的分析技术——支持向量机(Support Vector Machines,SVMs)已被证明十分适合处理这样的基因表达数据。大量关于基因表达数据处理的文献在肯定SVMs独特优势的同时,对于其原理与算法的具体实现却较少进行总结和详细介绍。本文将结合数据挖掘的相关知识,从SVMs的基本原理出发,详细介绍SVMs在微阵列表达数据分析中的应用。  相似文献   

10.
DNA微阵列数据判别的旋转森林方法   总被引:1,自引:0,他引:1  
陈金瓯  柳青 《中国卫生统计》2012,29(4):525-528,534
目的探讨旋转森林算法在DNA微阵列数据分类中的应用。方法通过对四个经典基因表达数据的分析考察旋转森林的分类效果,并与其他分类器进行比较,进一步调整算法参数并研究其对分类效果产生的影响。结果旋转森林对基因表达数据有较高且稳定的分类准确性,除了线性变换方式和集成规模对分类性能影响较大,分类效果不随算法其他几个主要参数变化。结论旋转森林在基因表达谱数据分类中有较好的判别结果。  相似文献   

11.
目的 比较两种基于偏最小二乘法的分类模型对肿瘤基因表达数据行多分类分析的效果,比较不同差异基因选取方法对分类结果的影响.方法 利用NCI60等4个肿瘤基因表达数据库,通过4种不同方法选取差异表达基因,在此基础上,用两种基于偏最小二乘的方法行多分类分析.一是偏最小二乘线性判别,首先运用偏最小二乘法行降维,再利用降维得到的成分作为输入变量作线性判别分析;二是偏最小二乘判别分析,利用偏最小二乘回归直接进行分类.分类效果采用留一法和10倍交叉验证法进行评价.结果 偏最小二乘判别分析的分类效果略优于偏最小二乘降维后的线性判别.以变量重要性指标选取差异表达基因时分类效果较好,其次是SAM法.结论 在对肿瘤基因表达数据行多分类分析时,偏最小二乘法既是一种高效的降维方法,也是一种实用的分类方法.  相似文献   

12.
目的 探讨XGBoost算法在二分类高维非平衡数据中的分类判别效果.方法 通过模拟实验及真实代谢组学数据分析,对XGBoost、随机森林、支持向量机、随机欠采样以及随机梯度提升树共五种方法进行比较.结果 模拟实验显示,XGBoost算法在数据非平衡较明显时,在各种实验条件下均优于或不劣于其他四种算法,在数据类别趋于平衡...  相似文献   

13.
14.
15.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号