首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 116 毫秒
1.
基因表达数据的随机森林逐步判别分析方法   总被引:3,自引:2,他引:3  
目的给出一种新的随机森林算法,它能在建模过程中自动对变量进行筛选,建立“最优”判断模型。方法采用变量重要性评分和逐步迭代算法选择有作用的变量;通过实际基因表达数据考核其应用效果,并使用R语言编程做模拟试验验证其有效性。结果三种疾病基因表达数据的判别模型,在包含很少量的基因情况下便获得了理想的分类效果;模拟试验则显示在类间区分度较大的情况下,随机森林逐步判别分析的效果明显,能有效地将有作用的变量保留在模型中,提高模型的判别效果;在类间区分度不够大的情况下分类效果提高不明显。结论随机森林逐步判别分析可以有效地应用于基因表达数据的基因筛选和分类研究,但要特别注意由随机波动对分析结果造成的影响。  相似文献   

2.
支持向量机在基因表达数据分类中的应用研究   总被引:1,自引:1,他引:1  
目的探讨支持向量机在基因表达数据分类研究中的应用条件和效果。方法使用支持向量机软件包,通过实际基因表达数据考核其应用效果,并通过模拟试验进一步验证和研究在含有大量无差异表达基因情况下对分类产生的影响。结果对四种疾病的真实基因表达数据的分类取得了良好的效果,模拟试验则显示了支持向量机对分类具有较高的准确性,但随无差异基因数量的增加其分类效果呈明显下降的趋势;在类间分离一定的情况下,差异表达基因数目较多、基因之间具有较高的相关性时,更容易获得好的分类效果。结论支持向量机在解决小样本、非线性及高维问题中表现出许多潜在的优势,可以有效地用于分析基因表达数据的分类问题。  相似文献   

3.
目的探讨随机森林并行运算的实现方法及其适用条件,为基因组学数据分析提供科学参考.方法 基于R foreach包编写随机森林并行运算程序,并利用SNPs模拟数据探究其表现.结果 在SNPs位点数量为100,500,1000时,随工作站所占用CPU数量的增多,随机森林并行运算方法的提速效果呈非线性趋势,且位点数量相同但ntree数量不同时速度的提升效果亦不相同;当SNPs位点数量达到5000时,该方法提速效果较差,10核环境下ntree为500和1000时几乎无提速效果,即使ntree达到5000或10000时提速效果也不超过2倍.结论 基于R foreach包的随机森林并行运算方法在SNPs位点数量不是很多(如<1000)的情况下其提速效果尚可;但由于共享内存等产生的通信开销的问题的存在,当SNPs位点数较多(超过5000)时,该方法提速效果很差,此时可考虑选择其他分析工具如随机丛林(RJ,Random Jungle ).  相似文献   

4.
DNA微阵列数据判别的旋转森林方法   总被引:1,自引:0,他引:1  
陈金瓯  柳青 《中国卫生统计》2012,29(4):525-528,534
目的探讨旋转森林算法在DNA微阵列数据分类中的应用。方法通过对四个经典基因表达数据的分析考察旋转森林的分类效果,并与其他分类器进行比较,进一步调整算法参数并研究其对分类效果产生的影响。结果旋转森林对基因表达数据有较高且稳定的分类准确性,除了线性变换方式和集成规模对分类性能影响较大,分类效果不随算法其他几个主要参数变化。结论旋转森林在基因表达谱数据分类中有较好的判别结果。  相似文献   

5.
目的探讨随机森林(RF)的变量捕获方法在高维数据变量筛选中的应用。方法通过模拟实验和实际数据分析,对两种变量捕获(vh.md,vh.vimp)和逐步剔除方法(var SelRF)进行比较,并通过选入变量的数目、模型预测错误率(PE)和受试者工作特征曲线下面积(AUC)对其进行评价。结果模拟实验表明,在变量具有联合作用、交互作用和弱独立作用情况下,变量捕获方法均明显优于var SelRF方法和全变量VIMP排序方法;实际数据分析结果表明,变量捕获方法筛选变量结果稳定,并能够保证良好的预测效果。结论变量捕获方法适用于高维数据的变量筛选,具有实用价值。  相似文献   

6.
随机森林(random Forests,RF)方法作为一个数据分析技术近年来在医学及其他领域中的应用十分广泛。与其他算法相比,随机森林方法有着精度高、可容忍噪声等诸多优点,并且近年来在随机森林方法的基础上又衍生出了许多改进算法。本研究主要介绍了随机森林的原理和方法,以及它在医学中的应用现状与前景。  相似文献   

7.
目的基于microRNA组学数据,探讨加权随机森林在三阴性乳腺癌分类预测中的应用,为疾病诊断提供方法学支撑。方法以TCGA乳腺癌数据为例,采用加权随机森林构建三阴性乳腺癌的分类预测模型,并与随机森林、logistic回归、支持向量机、LASSO和岭回归五种模型进行比较。结果通过比较六种模型的5个评价指标,加权随机森林模型的预测性能明显优于其他五种模型,加权随机森林模型的灵敏度为0.852、特异度为0.873、准确度为0.871、AUC值为0.862和G-means值为0.861。结论加权随机森林构建的分类预测模型较好地识别了三阴性乳腺癌患者,可为三阴性乳腺癌的诊断提供方法学上的参考。  相似文献   

8.
目的 在高维组学研究中,混杂因素常常影响着随机森林筛选出与研究结局相关联的变量的能力,因此控制混杂因素具有非常重要的作用。方法 通过模拟试验和实例验证,我们比较了以下四种方法在筛选与研究结局相关联的变量中控制混杂因素的效果:随机森林(random forest, RF);Ranger法;加权Ranger,给予每个混杂因素以100%的权重;残差法,将去除混杂因素的因变量和自变量作为新的因变量和自变量纳入Ranger分析。研究采用危险因素在重要性评分排序中排在第一位的比例作为评价指标。结果 基于大量的模拟试验,我们发现残差法和加权Ranger法有效提高了危险因素在重要性评分排序中排在第一位的比例。GWAS实例证实,在使用这两种方法校正混杂因素之后,危险因素的排序有所提前。结论 校正混杂因素对于筛选与研究结局相关联的变量十分必要,且残差法在混杂因素校正上表现优于加权Ranger法,RF和Ranger几乎无混杂校正作用。  相似文献   

9.
目的 介绍Radviz可视化的基本原理和方法,并将Radviz可视化应用于基因表达数据的分类和特征选择.方法 以结肠癌基因表达数据为例,结合启发式搜索和Vizrank可视化评估,利用Radviz可视化实现基因表达数据的分类和差异基因排序.结果 由Vizrank算法得到排序前100的Radviz可视化结果,最优的Vizrank得分为0.9491,并得到了17个用于可视化分类的差异基因,其中部分基因获得了生物学解释.结论 Radviz能够形象的呈现隐含在数据中的模式特征,较好地用于基因表达数据的可视化分类和差异基因筛选.  相似文献   

10.
基因芯片技术得到的基因表达谱数据具有维数高、噪声大、样本量小、非线性等特点,如何从高维数据中提取含在其中的生物学信息,是医学和生物学研究中面临的一个重大挑战。基因表达数据分析的重要任务是筛选差异表达基因及对基因或样品进行分类,通过比较正常和疾病状态下基因表达的差异,研究疾病的发病机制、早期诊断和治疗方法。  相似文献   

11.
依据基因表达数据,利用计算机技术对其样本进行分类并找到在肿瘤组织中特异表达的基因,使之能够对疾病的治疗和生物医学研究起到有益的参考和借鉴作用。本文采用非负矩阵分解算法,对基因表达数据进行分析,然后对分解后得到的基矩阵中各集合基因进行比较,找出在肿瘤组织中有特异表达的基因,并做出生物解释。以胃癌基因表达数据为例进行实验,结果表明了该方法的可行性和有效性。  相似文献   

12.
目的由于疾病,特别是肿瘤的识别模型,其分型准确度对疾病的治疗和预后具有重要意义,因而,本研究探讨了基于基因表达谱的疾病分型识别模型建模方法。方法结合白血病基因表达谱数据分析,利用偏最小二乘判别分析(PLS-DA)对利用基因微阵列数据予以建立白血病分型模型,并与Golub等提出的建模方法相对照,比较它们的判别效果。结果基于偏最小二乘判别分析的白血病识别模型的拟合准确度和预测准确度均达到100%。结论研究表明,基于偏最小二乘判别分析的模型明显提高了白血病的分型正确率,无论是拟合精度,还是预测精度,均高于Golub等提出的方法。  相似文献   

13.
目的介绍数据挖掘中3种模型在农村初级卫生保健项目资料分析中的应用,及选择最适合的模型并对资料进行分析的经验。方法应用SAS/Enterprise Miner模块对2005年西部10个省45个县4 238例已经断奶儿童的初级卫生保健资料进行研究,将数据集按70%、15%和15%比例分成训练集、验证集以及测试集,进行模型的拟合、测试和验证。通过综合模型的Root ASE、误分率(Misclassification rate)、ROC曲线的面积以及信息诊断图(Diagnose chart)等对模型进行最优选择。结果 BP神经网络模型的Root ASE为0.372,误分率为0.257以及ROC曲线下面积均为3种模型最优,最终选择神经网络模型对数据进行分析。结论利用SAS/Enterprise Miner所提供的数据挖掘工具,根据数据集自身的特点选择合适的模型对数据进行分析,使分析的结果更加准确可靠,为初级卫生保健政策的制定提供准确、可靠的数据支持。  相似文献   

14.
分类树中QUEST算法与多水平logistic模型的联合应用与比较   总被引:4,自引:0,他引:4  
目的探讨分类树中的QUEST算法和多水平logistic模型联合应用于分析层次资料的可行性.方法首先介绍模型的原理,据此提出联合应用的具体思路,然后采用分析实例进行深入探讨,并用预测准确率和ROC曲线对模型拟合效果加以比较.结果QUEST算法能非常准确地搜索出主要影响因素,并能更加深入地刻画因变量、自变量间的复杂联系,在此基础上再进行多水平logistic模型会更加高效、准确.结论QUEST算法和多水平logistic模型各有优势,将它们联合用于层次资料的分析将更能保证分析的正确性和完善性.  相似文献   

15.
目的应用分类树模型构建缺血性脑卒中发病风险的预测模型,并评价其应用价值。方法采用1:1配比病例对照研究设计,选择深圳市2所综合性医院的309名缺血性脑卒中患者为病例组,同时选择按年龄、性别匹配的健康者作为对照;采用卡方自动交互检测(CHAID)法建立缺血性脑卒中发病风险的预测模型,采用错分概率Risk值、索引图及受试者工作特征曲线(ROC)评价模型的应用价值。结果所建立的分类树模型共包括4层,共19个结点,共筛检出6个解释变量;其中最为重要的预测因素为体育锻炼和高血压病史。模型错分概率Risk值为0.207,利用预测概率绘制的ROC曲线下面积为0.789,与0.5比较,差异有统计学意义(P=0.001),模型拟合的效果较好。结论分类树模型不仅能有效地拟合缺血性脑卒中发病风险的预测模型,还可以有效地筛检变量间的交互作用效应。  相似文献   

16.
基因表达数据聚类分析结果的评价方法研究   总被引:3,自引:0,他引:3  
目的:本文探讨基因表达数据聚类分析结果的评价方法,提供一种最佳聚类结果的判别准则。方法:从数据结构(内部信息)和功能分类(外部信息)两个方面对聚类结果进行评判。即一方面,采用Entropy(信息熵)评判法,考察聚类结果与部分已知功能基因分类的符合程度;另一方面,采用adjust-FOM评价法,从数据结构的本身进行评价。我们综合两种方法得到一种新的评价方法,并称此方法为Entropy-FOM评价方法,结果:将该方法应用于Lyer的血清数据集和Ferea的酵母数据集对聚类分析结果进行了评价,给出了六种聚类方法的adjust-FOM图和Entropy-FOM图。结果:通过大量计算结果提示,谱聚类SOM方法和模糊聚类方法有相对高的聚类效能。  相似文献   

17.
目的 探讨XGBoost算法在二分类高维非平衡数据中的分类判别效果.方法 通过模拟实验及真实代谢组学数据分析,对XGBoost、随机森林、支持向量机、随机欠采样以及随机梯度提升树共五种方法进行比较.结果 模拟实验显示,XGBoost算法在数据非平衡较明显时,在各种实验条件下均优于或不劣于其他四种算法,在数据类别趋于平衡...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号