首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
目的探讨微阵列数据中的先验信息对基于LASSO变量选择方法的影响。方法设置真实模型后,逐步融合先验信息,采用R、MATLAB软件编程,模拟比较先验信息对LASSO,group LASSO(简称为g LASSO)中的non-overlap group LASSO(简称为nog LASSO)和overlap group LASSO(简称为og LASSO)变量选择的影响。结果经典的LASSO、og LASSO变量选择方法在处理模拟微阵列数据时具有较好的预测精度(AUCLASSO=0.8915≈AUCog LASSO=0.8923>AUCnog LASSO=0.8396,MSEnog LASSO=0.1358>MSEog LASSO=0.0975≈MSELASSO=0.0928),LASSO可解释性最强(平均入选模型基因数分别为21.52、111.95、101.01)。nog LASSO在处理基因通路信息时,当[X295]被错分至第19个通路后,尽管未改变其效应值,但入选模型次数大为减少,预测精度下降较为明显,而og LASSO表现更稳健。结论融合微阵列数据中的先验信息并未提高基于LASSO变量选择方法的预测性能及效率,经典的LASSO变量选择方法仍为处理微阵列数据的有效方法。  相似文献   

2.
变量筛选和模型估计一直是高维数据的研究热点,而高维数据的维度灾难问题日渐突出,传统的统计分析方法因模型不稳定不再适用,本文对高维数据中基于正则化回归的变量选择方法的原理、适用的数据类型及优缺点、调整参数的选择进行综述。  相似文献   

3.
目的基于LASSO-Cox模型探索交叉验证(cross validation)、pcvl法(penalized cross-validated log-likelihood)、EBIC准则(extended bayesian information criterion)、平稳选择(stability selection)四种方法在控制FDR(false discovery rate)方面的表现及其变量选择效果。方法通过模拟研究评价各方法在不同删失比例、自变量间不同相关程度以及回归系数的不同稀疏水平下的FDR和PSR(positive select rate),并从GEO上下载DLBCL数据进行基因与预后间的关联分析。结果模拟结果表明,在不同删失比例、自变量相关程度和稀疏水平的情况下,平稳选择法控制FDR的能力都优于其他方法且其变量选择效能也较高。EBIC准则在相关程度低、自变量较稀疏时表现较好,当样本量较小时结果较保守。pcvl法虽然不容易漏掉有效应的变量,但其FDR仍较高。实例结果显示,EBIC准则只选出1个基因,平稳选择法选出的基因中大部分有统计学意义且与其他方法的结果重合度高。结论在基于LASSO-Cox模型的高维数据生存分析中平稳选择法能较好地控制FDR且其变量选择效能也较高。  相似文献   

4.
目的比较五种基于LASSO的高维数据线性回归模型统计推断方法:LASSO-惩罚计分检验,多重样本拆分、稳定选择、低维投影、协方差检验。方法采用R软件模拟不同情形的高维数据,用五种方法做统计推断,以期望假阳性率和检验效能为评价指标,比较这五种方法在不同高维数据情形下的表现。结果在理想高维数据情形下,除协方差检验推断结果保守外,其余方法表现都较好。在复杂高维数据情形下,LASSO-惩罚计分检验的检验效能是五种方法中最高的,其次为多重样本拆分,而LASSO-惩罚计分检验的EFP也是最高的,多重样本拆分的EFP基本接近0。结论在常见复杂高维数据中LASSO-惩罚计分检验和多重样本拆分是两种较好的高维线性回归模型统计推断方法,两者相对而言前者较宽松,后者较保守。在实际应用中可根据应用需求来选择合适的统计推断方法。  相似文献   

5.
DNA微阵列数据判别的旋转森林方法   总被引:1,自引:0,他引:1  
陈金瓯  柳青 《中国卫生统计》2012,29(4):525-528,534
目的探讨旋转森林算法在DNA微阵列数据分类中的应用。方法通过对四个经典基因表达数据的分析考察旋转森林的分类效果,并与其他分类器进行比较,进一步调整算法参数并研究其对分类效果产生的影响。结果旋转森林对基因表达数据有较高且稳定的分类准确性,除了线性变换方式和集成规模对分类性能影响较大,分类效果不随算法其他几个主要参数变化。结论旋转森林在基因表达谱数据分类中有较好的判别结果。  相似文献   

6.
随着基因组测序技术和生物信息学的迅猛发展,近几年涌现了大量与疾病相关的组学数据即所谓高维数据。对于这类组学数据,共同特点是自变量个数p通常远大于观察例数n,且自变量间往往高度相关,从成千上万个组学数据中识别出真正有意义的自变量带来一些统计学挑战。本文对高维数据中的贝叶斯变量选择方法做论述。  相似文献   

7.
目的探讨随机森林(RF)的变量捕获方法在高维数据变量筛选中的应用。方法通过模拟实验和实际数据分析,对两种变量捕获(vh.md,vh.vimp)和逐步剔除方法(var SelRF)进行比较,并通过选入变量的数目、模型预测错误率(PE)和受试者工作特征曲线下面积(AUC)对其进行评价。结果模拟实验表明,在变量具有联合作用、交互作用和弱独立作用情况下,变量捕获方法均明显优于var SelRF方法和全变量VIMP排序方法;实际数据分析结果表明,变量捕获方法筛选变量结果稳定,并能够保证良好的预测效果。结论变量捕获方法适用于高维数据的变量筛选,具有实用价值。  相似文献   

8.
目的 评价各种数据缺失机制对逐步回归变量筛选结果的影响.方法 通过模拟产生不同缺失机制和缺失类型的数据,用筛选到的真实变量的个数和损失函数大小作为指标,评价其对逐步同归的影响.结果 完整数据情况下的筛选表现优于各缺失机制卜表现;缺失类型比缺失机制对筛选结果的影响更为明显.结论用逐步回归对含缺失值的数据进行变量筛选时,需要关注缺失机制和缺失类型.  相似文献   

9.
<正>全基因组关联研究(genome-wide association studies,GWAS)是在全基因组范围内同时研究上百万个单核苷酸多态性(single nucleotide polymorphism,SNP)位点与疾病或某些性状之间的关联,从而筛选出可能的致病SNP位点,进而对这些位点进行人群验证和实验分析。在GWAS研究中比较传统的分析方法是针对每个SNP和结局变量间关联进行单因素分析的假设检验,而待分析的SNP数量有几十万甚至上百万个,使得检验次数十分巨大,如果不采用合适的方法  相似文献   

10.
目的 比较L1正则化、L2正则化和弹性网三种惩罚logistic回归对SNPs数据的变量筛选能力。 方法 根据所设置的参数生成不同条件的SNPs仿真数据,利用正确率、错误率和正确指数从三个方面评价三种惩罚logistic回归的变量筛选能力。 结果 正确率表现为L2正则化惩罚logistic回归>弹性网惩罚logistic回归>L1正则化惩罚logistic回归;错误率表现为L2正则化惩罚logistic回归>弹性网惩罚logistic回归>L1正则化惩罚logistic回归;正确指数则表现为弹性网惩罚logistic回归>L1正则化惩罚logistic回归>L2正则化惩罚logistic回归。 结论 综合来看弹性网的筛选能力更优,弹性网融合L1、L2两种正则化的思想,在高维数据分析中既能保证模型的稀疏性,便于结果的解释,又解决了具有相关性自变量不能同时进入模型的问题。  相似文献   

11.
正近年来,随着各种生物检测技术的发展,医学研究中出现了各种高通量数据,如基因组、蛋白质组和代谢组学数据等,变量选择是生物标志物识别和建立分类模型的重要环节,由于高维组学数据中的绝大多数变量对分类并不起作用,并且存在多重共线性、模型过拟合等问题,传统的基于最小二乘方法估计的线性回归并不适用于高维数据~([1])。在高维组学数据特征变量筛选过程中,由于变量数目很多,子集筛选方法计算量巨大,并可能由于选择不同的筛选准则导致筛选的结  相似文献   

12.
目的对比R语言中LASSO与经典特征选择方法在前列腺纹理分析诊断高级别前列腺癌中的效果。方法回顾分析临床怀疑高级别前列腺癌,进行多参数磁共振检查的患者,所有患者均在磁共振检查后一个月内进行经直肠超声引导穿刺活检获得病理结果。提取T2WI、ADC、T1WI-DCE序列的纹理特征及T1WI-DCE的定量特征,分别应用LASSO和经典方法进行纹理特征选择,再对经特征选择后的数据分别通过多元logistic回归(LR)建立高级别前列腺癌的预测模型,最后采用受试者工作特征曲线(ROC)分别评价模型效能。结果LASSO+LR验证集敏感度为0.8261,特异度为0.9444,准确度为0.8983;经典法+LR验证集敏感度为0.9130,特异度为0.9167,准确度为0.9153;两个模型验证组AUC之间无统计学差异(P=0.3630)。结论LASSO和经典方法在用于前列腺纹理分析诊断高级别前列腺癌的特征选择时,均表现出良好效能,且差异无统计学意义,两者均可应用磁共振纹理分析鉴别高级别前列腺癌与良性前列腺增生。  相似文献   

13.
目的对高维数据进行变量筛选并构建预测模型是组学数据分析的研究热点之一。本研究旨在为结局为二分类变量的高维组学数据筛选自变量并构建预测结局的稀疏统计模型。方法本研究通过模拟研究和实例分析阐释基于non-local先验的贝叶斯变量选择方法——乘积逆矩先验(product inverse moment,piMOM)相较于惩罚类方法ISIS-光滑平切绝对偏差(iterative sure independence screening-smoothly clipped absolute deviation,ISIS-SCAD)和ISIS-最小最大凹惩罚(iterative sure independence screening-minimax concave penalty,ISIS-MCP)在高维数据中变量筛选及其预测效果的性能优劣。结果模拟研究发现:在高维的情况下,经piMOM、ISIS-SCAD和ISIS-MCP方法筛选所得变量的平均真阳性数和受试者工作特征曲线下面积(AUC,area under curve)基本相等,ISIS-SCAD、ISIS-MCP的平均假阳性数、回归系数均方误差以...  相似文献   

14.
目的 logistic回归是生物医学研究中常用的方法,可以进行影响因素筛选、概率预测、分类等。高通量测序技术得到的数据给高维变量选择问题带来挑战。惩罚logistic回归可以对高维数据进行变量选择和系数估计,且其有效的算法保证了计算的可行性。方法本文介绍了常用的惩罚logistic算法如LASSO(least absolutes shrinkage and selection operator)、EN(elastic net)、SCAD(smoothly clipped absolute deviation)、MCP(minimax concave penalty)以及SIS(sure independence screening)等,并用模拟数据对各方法进行评价。结果 (1)各方法的结果与自变量间的相关程度有关,不同惩罚logistic回归的精确性与自变量间的相关程度有关,如果相关较高,LASSO或EN的结果较好,而在相关较低时,MCP或SCAD结果较好;(2)结合SIS的方法倾向于少选变量,误选率低,但敏感度也低,而LASSO、MCP、SCAD选择变量较多,误选率高,但敏感度较高;(3)当自变量间低度相关时,SIS的三种方法结果非常接近,但相关较高时,SIS+LASSO的结果表现较好。结论采用非小细胞型肺癌的基因数据集进行实例分析,并表明如何根据模拟实验的结论,在多种方法的不同结果间进行选择。  相似文献   

15.
正组学数据(omics data),如基因组、转录组、蛋白质组和代谢组等数据能够反映疾病的发生、发展和预后的情况。对于组学数据的分析,主要是筛选有用的生物标志物、分析调控网络和建立预测模型。一般是通过变量差异表达量分析不同类别之间的差别。但在实际中,也可能有这样一种情况,即在不同分类中,变量的量值变化不大,但其网络拓扑结构(network topology structure,NTS)却发生了变化,这种情况同样能反映不同的生物学特征,并据  相似文献   

16.
正随着生物检测技术的不断发展,实际中可以获得基因组、蛋白质组和代谢组等各种来源的高维组学数据,如何从海量数据中准确选择与疾病有关的特征变量,从而构建准确的预测模型一直是国内外的研究热点。变量筛选问题可归结为从一组检测数据Χ=(Χ_1,Χ_2,…,Χ_m)中筛选出对分类/预测有区分作用的  相似文献   

17.
目的探讨基于LASSO回归模型与百度搜索数据构建流感疫情预测系统的可行性。方法采用Bagging方法和模型性能的多指标优化评估策略,对传统LASSO回归模型进行改进,构建性能提升的集成LASSO回归模型,将其应用于中国大陆地区季节性流感流行趋势的预测研究。结果与传统LASSO回归模型相比,本研究所构建的集成LASSO回归模型对2011年至2015年中国大陆地区流感流行趋势的预测偏差更小,说明集成LASSO回归模型的外部推断能力更强,适合于流感疫情的预测分析;本研究开发了开源的R软件程序包Sparse Learner,方便用户进行调用和进一步开发研究。结论 Bagging方法和多指标优化评估策略相结合所构建的集成LASSO回归模型,有效地增强了传统LASSO回归模型的性能。本研究所构建的预测模型可以应用于流感等传染病疫情的预测研究。  相似文献   

18.
目的探讨测量误差变量与准确测量变量混合情况下测量误差对联系效应估计的影响。方法利用测量误差大小、准确测量变量与测量误差变量之间的相关性、准确测量变量的个数和联系效应之间的函数,采用R软件做图来讨论分析测量误差对研究真实性的影响。结果当连续变量Y和Z能准确测量,连续变量X不能准确测量时,无差异性测量误差使所估计的联系效应值总低于实际值,并随X与Z的相关程度的增加,测量误差所致的偏倚会进一步地恶化。在一个错分二分类变量X和一个准确测量连续变量Z混合的情况下,测量误差所致的偏倚不仅跟暴露测量的灵敏度和特异度有关,而且跟X与Z的相关系数以及X的暴露比例有关,并且随着相关系数的增加,AF值逐渐减少。在ρ=0.5时,AF值为1.419,变量X对应变量Y的联系效应估计值大于实际值,但当ρ增至0.9时,AF值为0.474,其联系效应估计值低于实际值,改变了错分偏倚的方向。结论在准确测量变量和测量误差变量混杂的研究中,用线性回归模型来分析估计多个自变量与应变量之间的联系时,对测量误差所致偏倚的识别、控制和评估是十分必要的,对结果的解释要谨慎。  相似文献   

19.
本文分析了国际卫生数据标准化工作中,面向应用系统的数据标准和互联互通数据标准的方法和应用实践,介绍了我国卫生信息互联互通数据标准开发情况及标准化方法研究进展。  相似文献   

20.
目的探讨变量变换对假设检验效能的影响.方法以两样本率假设检验为例,建立变量变换后统计量的渐近分布,通过计算机模拟,比较经过各种变量变换后假设检验第一类错误和第二类错误的变化,从而确定较优的变换.结果在不同总体率的条件下,找到几个能改变小样本χ2检验效能的变换函数.结论变量变换能有效地提高假设检验的效能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号