首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
目的  探究高维组学数据中结局为二分类时基于随机森林(random forest, RF)变量重要性评分的变量筛选方法,并选择合适方法构建结局预测模型。方法  首先根据不同的变量筛选目标,对最小优化变量筛选类RF算法[递归特征消除(recursive feature elimination, RFE)-RF、biosigner]与全部相关变量筛选类RF算法(Boruta、vita、altmann、r2vim)在高维数据中识别重要变量的能力进行了模拟比较。然后结合不同方法优势用于弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma, DLBCL)分型相关基因的筛选,并构建DLBCL分型诊断模型。结果  模拟研究表明,vita方法的灵敏度较高,biosigner方法的阳性预测值较高。实例分析表明,经vita方法筛得1 019个与DLBCL分型相关的基因,后经biosigner方法筛得77个与DLBCL分型相关的基因。所建DLBCL分型诊断模型的受试者工作特征(receiver operating characteristical, ROC)曲线下面积(area under the ROC curve,AUC)为0.910。结论  vita及biosigner方法可用于DLBCL分型相关基因的初步和最终筛选阶段。由最终筛得基因所建立的模型可有效实现DLBCL的分型诊断。  相似文献   

2.
基因表达数据的随机森林逐步判别分析方法   总被引:3,自引:2,他引:3  
目的给出一种新的随机森林算法,它能在建模过程中自动对变量进行筛选,建立“最优”判断模型。方法采用变量重要性评分和逐步迭代算法选择有作用的变量;通过实际基因表达数据考核其应用效果,并使用R语言编程做模拟试验验证其有效性。结果三种疾病基因表达数据的判别模型,在包含很少量的基因情况下便获得了理想的分类效果;模拟试验则显示在类间区分度较大的情况下,随机森林逐步判别分析的效果明显,能有效地将有作用的变量保留在模型中,提高模型的判别效果;在类间区分度不够大的情况下分类效果提高不明显。结论随机森林逐步判别分析可以有效地应用于基因表达数据的基因筛选和分类研究,但要特别注意由随机波动对分析结果造成的影响。  相似文献   

3.
随机森林(random Forests,RF)方法作为一个数据分析技术近年来在医学及其他领域中的应用十分广泛。与其他算法相比,随机森林方法有着精度高、可容忍噪声等诸多优点,并且近年来在随机森林方法的基础上又衍生出了许多改进算法。本研究主要介绍了随机森林的原理和方法,以及它在医学中的应用现状与前景。  相似文献   

4.
变量投影重要性分析在自变量筛选中的应用   总被引:2,自引:0,他引:2  
张政  冯国双 《现代预防医学》2012,39(22):5813-5815
自变量筛选在多因素线性回归分析中是非常重要的环节,本文通过实例分析,与传统的逐步回归筛选法的比较,介绍了变量投影重要性分析在自变量筛选中的实际应用。  相似文献   

5.
目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。  相似文献   

6.
基因表达数据判别分析的随机森林方法   总被引:2,自引:1,他引:2  
目的探讨随机森林算法在基因表达数据分类研究中的应用。方法通过实际基因表达数据考核其应用效果,并通过模拟试验进一步验证和研究在存在大量无差异表达基因情况下对分类产生的影响。结果随机森林算法对基因表达数据的分类具有较高的准确性,但随着基因数量的增加其判别效果呈下降的趋势,在差异表达基因之间具有相关性时,下降趋势明显减慢,能够获得较理想的分类效果。结论随机森林算法对基因表达数据的分类研究有较好的判别效果。  相似文献   

7.
应用捕获 -再捕获方法对某县 1 999年 5月 1日 - 6月 30日期间 7个乡镇 44451人腹泻病发病状况进行调查 ,获得腹泻病人估计发病数 442人 ,罹患率为 0 .99%。调查结果表明 ,捕获 -再捕获方法具有明显的快速、准确、省时、省力的优点 ,为今后在流行病学调查中应用开辟了新途径。  相似文献   

8.
为核实我省临泉县、庐江县、蒙城县、东至县、寿县等5个监测点狂犬病发病情况,估计狂犬病实际发病率,初步评价狂犬病疫情报告系统,2006年2月27日~3月4日,省疾控中心派出2个调查组,分别赴5个监测点进行调查。  相似文献   

9.
钟晓君  张强  秦国政 《现代医院》2022,(10):1626-1628
目的 探索男性不育症患者证候类型的分布,基于随机森林方法探索基本证候类型的重要影响因素。方法 利用《男性不育症临床调查表》,调查1 000例符合入选标准的男性不育症患者,用R软件通过描述性统计方法分析证候类型的分布,使用随机森林方法计算变量的重要性排序,根据袋外估算误差率筛选变量。结果 患者的基本证型和复合证型共有26种组合,基本证型的患者有543例,复合证型的患者共有144例。肾阳虚衰证占比最高。结论 随机森林方法预测各基本证型的误判率极低,变量数为4时,袋外估算误差率较低。畏寒肢冷、神疲乏力、阳虚体质、性欲情况是对肾阳虚衰证影响较大的4个因素。  相似文献   

10.
捕获一再捕获方法(CRM)在疟疾防治中的应用   总被引:7,自引:0,他引:7  
CRM(capturerecapturemethod)意为“捕获———再捕获方法” ,是近年来用于评估一个地区某种疾病总体含量的一种新的统计学方法。在疟疾防治中 ,尤其是在疟疾高发区疫情漏报现象较为普遍的情况下 ,为了准确掌握疟疾实际的发病数据 ,及时制定疟疾防治措施 ,用CRM是非常适宜的评估手段之一。本文将探讨该方法在疟疾防治中的应用及其在应用中的有关问题。1 统计背景1.1 CRM的创意 CRM的创始人为W .EdwardDeming ,故又称Deming氏法【1】他根据工业产品质检和国际上评估野生动物数量的…  相似文献   

11.
目的在高维组学变量筛选过程中,当数据发生轻微变化时,变量筛选方法筛选出的变量会发生一定的变化。本文探索如何评价筛选变量的结果是否稳定。方法通过模拟实验,分析对比了HD、SCSR、TD、KI、CW、RCW六种稳定性评价方法的准确性及变异程度,并通过实例结合PLS、svmRFE和RF三种变量筛选方法对SCSR方法进行了考察。结果当变量排序为随机产生时,SCSR、KI和RCW三种方法基本能够在取各种变量数目情况下始终接近于最小值0。对于置换标签和变量值后的数据集,PLS、RF、svmRFE三种方法的稳定性几乎完全相同,SCSR、KI和RCW三种稳定性评价指标在取不同筛选阈值时都达到了最小期望值。在评价指标的稳定性上,HD和SCSR能够保持很小的变异,具有更好的稳健性。结论 SCSR的准确性和稳定性最好,推荐作为稳定性评价指标。  相似文献   

12.
目的 探索基于深度学习模型联合正则化方法在小样本高维数据特征筛选中的优势.方法 通过模拟实验和实际数据分析比较深度学习模型单独及联合正则化方法在小样本高维特征筛选准确性方面的差异;采用测试集中C指数作为两种模型泛化能力评价指标.结果 在小样本研究中单纯的深度学习模型在变量之间存在复杂相关性时会表现过拟合,而深度学习模型...  相似文献   

13.
捕获──再捕获方法在流行病学发病率调查中的应用   总被引:2,自引:0,他引:2  
目的本文介绍了捕获再捕获方法用于疾病监测网络中的疾病的发病率统计。方法作者应用该方法,对儿童胰岛素依赖型糖尿病发病率及法定传染病报告和发病率资料进行了统计,且与传统的统计方法进行了比较。结果该方法应用简单,所得该病的发病率要比通过传统的被动监测报告系统漏报调查所得到的发病率资料更完整、更准确。结论本方法使用必须掌握以下三个条件:①所研究人群的人口数应相对稳定;②总体中的每一个体应是唯一的、并被包括在各来源之中;③每个病例在不同来源中被发现的机会应均等,即各来源应是相互独立的。  相似文献   

14.
捕获-再捕获方法在学生肝炎发病率统计中的应用   总被引:4,自引:0,他引:4  
发病率是制定疾病控制对策、评价预防效果的主要信息指标 ,但是传统病例收集方法的一个很大缺点是漏报率高 ,且无合适的质量控制方法。本文运用捕获 -再捕获 (capture -recap turemethods)方法 ,对学生病毒性肝炎发病率进行校正 ,显著提高了资料的完整性、准确性。1 材料和方法1.1 资料来源 第一来源 ,本站疫情室病毒性肝炎报告卡 ;第二来源 ,本企业教培中心登记的企业所属 2 2所小学、2 1所中学医务室学生病假 (休学 )资料。近 5年学生在校平均数为 2 4699人。1.2 调查方法 对近 5年因病毒性肝炎休假、休学的…  相似文献   

15.
16.
目的 了解济南市死亡个案的漏报情况,为制定卫生策略提供依据。方法 用捕获一再捕获方法(Capture - Mark - Recapture,CMR),采用分层整群随机抽样的方法,全市各县区根据2015年度各乡镇(街道)死因监测数据质量水平,随机抽取4个乡镇(街道),每个抽中的乡镇(街道)的所有家庭均为调查家庭,调查对象包括调查家庭的所有成员。从当地公安、民政和村(居委会)搜集人口死亡情况,再与死因登记系统已报告的死亡资料进行比对,计算漏报率。结果 2015年济南市死因监测漏报率为9.21%。其中,农村死亡漏报率较城区高2.23%(95%CI:1.17%~3.29%)。0~4岁组较其他年龄组高18.99%(95%CI:9.58%~28.40%)。男性死亡率较女性高0.90%(95%CI:-5.28%~7.08%),无统计学意义。根据死亡漏报率,调整后的2015年济南市居民粗死亡率为731.45/10万,调整后的人均期望寿命是78.33岁。结论 济南市死因监测系统死亡漏报情况不容忽视,应规范死因报告管理,逐步提高死因监测数据质量。同时,使用捕获一再捕获方法可以校正低估的粗死亡率和人均期望寿命,适时开展漏报调查,是有效弥补常规监测不足的方法之一。  相似文献   

17.
目的应用捕获-再捕获方法(CMR)评价合肥市居民死因登记报告的质量,校正常规监测居民死亡率。方法采用分层随机抽样法,对抽取的51,504人调查人口死亡情况,再与同期监测系统所报告的死亡资料进行核对,计算漏报率以及总体死亡率的95%可信区间(CI)。结果 2007~2009年3年的报告死亡率分别为2.89%、3.34%、3.86%,校正报告死亡率分别为4.17%、4.76%和4.75%。结论使用捕获-再捕获方法可以校正死亡率,适时开展漏报调查可有效弥补常规监测的不足。  相似文献   

18.
目的探讨捕获-标记-再捕获方法在死亡人口基数估计中的运用。方法以河池市DOMI项目死因监测系统登记死者人数和医学人口普查登记的死者人数分别作为第一捕获数和第二捕获数,应用捕获-标记-再捕获方法估计河池市死亡人口基数。结果河池市2003年1月1日至2005年5月1日间的5~60岁人群死亡人口基数的点估计值为759人,95%可信区间为750~768人,死因监测系统登记率在82.29%~84.26%之间。结论运用捕获-标记-再捕获对死亡人口基数进行估计经济易行,结果较为可靠,适合在死亡登记不完善但有多个资料来源的情况下进行基数估计。  相似文献   

19.
目的 应用随机生存森林模型探讨肺癌患者预后影响因素的重要性并对预测结果进行评价.方法 对山西省某三甲医院342例确诊的肺癌患者进行随访研究,建立随机生存森林模型,并与传统的Cox回归模型进行比较.结果 342例肺癌患者中226例患者发生死亡,中位生存时间为28.23月.治疗方式、肿瘤大小、临床分期等变量是影响肺癌患者预...  相似文献   

20.
目的 随着现代基因组学、蛋白组学和代谢组学等研究兴起,产生了大量的高维组学数据.对高维组学数据的分析,其重要任务是对样品进行分类及筛选出具有生物学意义的特征标志物.本项研究针对这一问题,采用目前公认效果较好的Boosting方法进行高维数据分析,并探讨Boosting算法在高维数据研究中的应用条件和效果.方法 通过多次迭代,Boosting能够将基础弱分类器(决策树)形成优效分类器.模拟试验研究和验证了在含有大量无差异变量情况下对分类及变量重要性度量的效果,并通过实际基因表达数据进一步考核其应用效果.结果 模拟试验显示,应用Boosting方法与决策树所建的组合模型对分类具有较高的准确性,并对噪声变量的干扰具有一定的抵抗能力.分类的同时能够对变量的重要性进行有效的评价;在保留了所有基因的情况下,对结肠癌真实基因表达数据的分类效果甚为理想,并为医学研究中结肠癌致病基因的发现提供了线索.结论 基于决策树所构造的Boosting组合分类模型,可以有效地应用于高维数据的判别分类及变量重要性评价的问题.Boosting算法在解决小样本、多噪声的高维问题中表现出许多潜在的优势,与目前使用的其他方法相比,对于具有复杂结构高维数据,Boosting算法有其明显的自身特点,如运算速度快,适用性更强,软件实现相对容易等,是一种值得推荐和进一步研究的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号