首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
目的探讨微阵列数据中的先验信息对基于LASSO变量选择方法的影响。方法设置真实模型后,逐步融合先验信息,采用R、MATLAB软件编程,模拟比较先验信息对LASSO,group LASSO(简称为g LASSO)中的non-overlap group LASSO(简称为nog LASSO)和overlap group LASSO(简称为og LASSO)变量选择的影响。结果经典的LASSO、og LASSO变量选择方法在处理模拟微阵列数据时具有较好的预测精度(AUCLASSO=0.8915≈AUCog LASSO=0.8923AUCnog LASSO=0.8396,MSEnog LASSO=0.1358MSEog LASSO=0.0975≈MSELASSO=0.0928),LASSO可解释性最强(平均入选模型基因数分别为21.52、111.95、101.01)。nog LASSO在处理基因通路信息时,当[X295]被错分至第19个通路后,尽管未改变其效应值,但入选模型次数大为减少,预测精度下降较为明显,而og LASSO表现更稳健。结论融合微阵列数据中的先验信息并未提高基于LASSO变量选择方法的预测性能及效率,经典的LASSO变量选择方法仍为处理微阵列数据的有效方法。  相似文献   

2.
目的将整合通路信息的sparse group LASSO方法与近年来发表的表型预测方法进行比较,通过模拟各种复杂疾病可能的遗传结构,比较各方法的预测能力,期望通过TCGA数据找到高效和稳健的统计方法。方法本研究利用SGL方法整合基因途径信息和基因表达数据,并与传统模型(LASSO、Enet、GSSLASSO)进行比较。通过乳腺癌真实基因型数据模拟表型数据:考虑不同分组(分组k=50,200,300,328)和不同遗传度对模型的影响(遗传度h_2=0.3,0.5,0.8)。采用相关系数R评价几种模型的预测能力,进一步通过结直肠癌(CRC)、胰腺癌(PAAD)、乳腺癌(BRCA)三个真实数据比较各方法表型预测的准确性。结果模拟结果表明,随着遗传度的增高,各方法的预测准确性也逐渐增高。整合通路信息的SGL方法和GSSLASSO方法比传统的LASSO和Enet方法有着更高的预测精度。而两种整合通路信息的方法中,SGL方法有着更好的预测能力和稳定性。在50,200,300分组情况下,GSSLASSO预测效果和LASSO以及Enet相近,但是在考虑通路信息的328分组下,GSSLASSO表现出了较好的预测效果。实例数据分析CRC,PAAD数据中,SGL方法具有最优的预测精度,其次是GSSLASSO,LASSO和Enet方法预测效果最差。结论整合通路信息的预测方法预测效果明显优于一般模型,而无论是在模拟数据还是实例数据中SGL的方法具有最优的预测精度。  相似文献   

3.
多重共线性是影响回归分析结果的一个重要问题, 近年来发展的LASSO方法对于筛选解释性较高的变量、处理高维数据和解决多重共线性问题具有强大的优势。该方法是在模型估计中增加了惩罚项, 能将一些不必要变量的回归系数压缩为零进而从模型中剔除, 达到变量筛选的目的。本文将重点介绍LASSO这一方法, 并与最优子集、岭回归、自适应LASSO与弹性网络的结果进行比较, 结果显示LASSO与自适应LASSO在解决自变量多重共线性问题以及增强模型解释性、预测精度方面均有较好的表现。  相似文献   

4.
目的对比R语言中LASSO与经典特征选择方法在前列腺纹理分析诊断高级别前列腺癌中的效果。方法回顾分析临床怀疑高级别前列腺癌,进行多参数磁共振检查的患者,所有患者均在磁共振检查后一个月内进行经直肠超声引导穿刺活检获得病理结果。提取T2WI、ADC、T1WI-DCE序列的纹理特征及T1WI-DCE的定量特征,分别应用LASSO和经典方法进行纹理特征选择,再对经特征选择后的数据分别通过多元logistic回归(LR)建立高级别前列腺癌的预测模型,最后采用受试者工作特征曲线(ROC)分别评价模型效能。结果LASSO+LR验证集敏感度为0.8261,特异度为0.9444,准确度为0.8983;经典法+LR验证集敏感度为0.9130,特异度为0.9167,准确度为0.9153;两个模型验证组AUC之间无统计学差异(P=0.3630)。结论LASSO和经典方法在用于前列腺纹理分析诊断高级别前列腺癌的特征选择时,均表现出良好效能,且差异无统计学意义,两者均可应用磁共振纹理分析鉴别高级别前列腺癌与良性前列腺增生。  相似文献   

5.
目的 构建急性药物中毒性脑病患者重症监护室(intensive care unit,ICU)住院时间延长的预测模型并评价其效能。方法 选择重症监护医疗信息集市(MIMIC)-Ⅳ2.2数据库中148例急性药物中毒性脑病患者作为研究对象,收集患者临床资料,根据ICU住院时间分非延长组(≤48 h)与延长组(>48 h)。采用最小绝对收缩和选择算子(LASSO)回归联合Logistic回归筛选变量,构建和绘制列线图。分别采用受试者工作特征曲线下面积(AUC)、Hosmer-Lemeshow校准曲线和决策曲线分析(DCA)评价模型的区分度、校准度及临床适用度。结果 患者ICU住院时间1~15 d,其中ICU住院时间延长69例,采取LASSO回归与Logistic回归相结合方法筛选预测变量。结果显示SOFA评分、心率、合并心血管疾病、使用机械通气4个变量为独立危险因素,依据以上预测变量构建和绘制列线图,列线图的AUC为0.837,95%CI0.774~0.900;Bootstrap内部验证AUC 0.873,95%CI 0.817~0.930,说明该列线图预测模型具有较好的预测能力。校准曲线和Hosmer-Lemeshow检验(χ2=6.392,P=0.603)均显示该模型具有较高的一致性和拟合度;DCA结果表明,患者可从模型中净获益(阈值范围0.05~1.00),具有较好的临床适用性。结论 本研究开发的模型性能良好, 有助于评估急性药物中毒性脑病患者ICU住院时间的延长风险。  相似文献   

6.
目的对山西省某三甲医院2011-2017年间血液科新诊断的弥漫大B细胞淋巴瘤患者(diffuse large B-cell lymphoma,DLBCL)是否实现两年无事件生存,即DLBLC患者早期复发的预测。方法根据无事件生存期,将患者分成早期复发和非早期复发,并以此为标签构建分类模型。首先对数据进行了归一化处理,然后用LASSO进行了特征选择,因数据类别不平衡,分别采用了SMOTE(synthetic minority over-sampling technique)、Borderline-1 SMOTE、Borderline-2 SMOTE与ADASYN(adaptive synthetic sampling)四种方法平衡数据,之后构建了基于支持向量机的多核模型作为最终的分类器,并与AdaBoost、随机森林和以高斯核、多项式核为内核的单核支持向量机进行比较,最终实现对新诊断病例早期复发的预测。结果在本文所有模型中,采用LASSO加Borderline-1 SMOTE的多核模型(accuracy=0.87,precision=0.87,recall=0.87,f1=0.87,AUC=0.87)取得了最优的分类性能。采用SMOTE的随机森林模型(accuracy=0.84,precision=0.85,recall=0.87,f1=0.79,AUC=0.83)、Borderline-2 SMOTE的随机森林(accuracy=0.84,precision=0.85,recall=0.87,f1=0.79,AUC=0.83)两种集成模型的分类性能也较好,但都低于多核支持向量机模型。两种单核支持向量机性能较差。结论本文构建的所有模型中,经过LASSO和Borderline-1 SMOTE重采样的多核支持向量机性能最优,可为DLBCL早期复发预测提供参考。  相似文献   

7.
目的 对山西省某三甲医院2011-2017年间血液科新诊断的弥漫大B细胞淋巴瘤患者(diffuse large B-cell lymphoma, DLBCL)是否实现两年无事件生存,即DLBLC患者早期复发的预测。方法 根据无事件生存期,将患者分成早期复发和非早期复发,并以此为标签构建分类模型。首先对数据进行了归一化处理,然后用LASSO进行了特征选择,因数据类别不平衡,分别采用了SMOTE(synthetic minority over-sampling technique)、Borderline-1 SMOTE、Borderline-2 SMOTE与ADASYN(adaptive synthetic sampling)四种方法平衡数据,之后构建了基于支持向量机的多核模型作为最终的分类器,并与AdaBoost、随机森林和以高斯核、多项式核为内核的单核支持向量机进行比较,最终实现对新诊断病例早期复发的预测。结果 在本文所有模型中,采用LASSO加Borderline-1 SMOTE的多核模型(accuracy=0.87,precision=0.87,recall=0.87,f1=0.8...  相似文献   

8.
灰色系统GM(1,1)模型在梅毒发病预测研究中的应用   总被引:1,自引:0,他引:1  
目的探讨应用灰色系统一阶一个变量的微分方程型模型(GM(1,1)模型)预测梅毒发病率的可行性。方法应用灰色GM(1,1)模型对广西南宁市2005~2010年梅毒年发病率数据进行建模拟合,并进行外推预测。结果建立的广西南宁市梅毒年发病率GM(1,1)预测模型,拟合精度高(C≈0.2812,P=1),可用于外推预测。结论灰色系统一阶模型可以很好地模拟和预测梅毒发病率在时间序列上的变化趋势,将其应用于梅毒发病预测是可行的。  相似文献   

9.
目的 logistic回归是生物医学研究中常用的方法,可以进行影响因素筛选、概率预测、分类等。高通量测序技术得到的数据给高维变量选择问题带来挑战。惩罚logistic回归可以对高维数据进行变量选择和系数估计,且其有效的算法保证了计算的可行性。方法本文介绍了常用的惩罚logistic算法如LASSO(least absolutes shrinkage and selection operator)、EN(elastic net)、SCAD(smoothly clipped absolute deviation)、MCP(minimax concave penalty)以及SIS(sure independence screening)等,并用模拟数据对各方法进行评价。结果 (1)各方法的结果与自变量间的相关程度有关,不同惩罚logistic回归的精确性与自变量间的相关程度有关,如果相关较高,LASSO或EN的结果较好,而在相关较低时,MCP或SCAD结果较好;(2)结合SIS的方法倾向于少选变量,误选率低,但敏感度也低,而LASSO、MCP、SCAD选择变量较多,误选率高,但敏感度较高;(3)当自变量间低度相关时,SIS的三种方法结果非常接近,但相关较高时,SIS+LASSO的结果表现较好。结论采用非小细胞型肺癌的基因数据集进行实例分析,并表明如何根据模拟实验的结论,在多种方法的不同结果间进行选择。  相似文献   

10.
目的探索基于胃肠道病变高维影像数据的计算机辅助诊断模型,特别为医疗资源匮乏地区提供胃肠腺瘤检测的机器学习技术。方法选取UCI Gastrointestinal数据集中76位增生或腺瘤患者的698维结肠镜的白光影像资料。采取非局部先验的贝叶斯变量选择方法进行变量筛选,与传统高维数据变量筛选Lasso方法比较,根据logistic回归模型预测结果计算正确率、Youden指数、灵敏度和特异度,运用该模型结果与医生个人和团队诊断结果比较上述评价指标。结果与Lasso结果比较显示,非局部先验的贝叶斯变量选择方法能够更为有效地筛选出预测变量,模型具有较强的泛化能力。与医生和其团队诊断结果比较发现,模型分类结果在正确率、Youden指数和特异度都具有最优效果,灵敏度也优于医生个人水平。结论基于非局部先验贝叶斯变量筛选的logistic回归模型,运用到计算机辅助诊断技术中,具有较好的预测性能,可为医疗诊断提供高效的决策支持。  相似文献   

11.
目的 探讨妊娠糖尿病(gestational diabetes mellitus, GDM)发病影响因素,构建并验证GDM交互式列线图风险预测模型。方法 回顾性收集2021年1—12月入院登记的2 279例孕产妇临床数据,按4∶1随机划分为训练集和验证集。采用χ2检验、Wilcoxon秩和检验分析GDM发病风险的影响因素,使用LASSO logistic回归筛选预测变量构建列线图模型,并进行模型验证,采用ROC曲线、校准曲线、临床决策曲线和临床影响曲线对模型进行评价。结果 训练集共纳入1 823例孕产妇,GDM患病率为16.84%。通过多因素LASSO logistic回归分析筛选GDM风险预测因素,其中妊娠年龄(OR=1.094,95%CI:1.055~1.135)、孕前BMI(OR=1.177,95%CI:1.126~1.230)、农村户籍(OR=0.242,95%CI:0.073~0.805)、本科及以上学历(OR=2.003,95%CI:1.291~3.106)、糖尿病家族史(OR=6.516,95%CI:4.034~10.525)、初产(OR=0.600...  相似文献   

12.
目的探讨处理复杂数据存在多个变量区块情形的一种统计分析方法:多区块偏最小二乘回归(MBPLSR),并将其用于环境-食品重金属迁移研究之中。方法将重金属镉从环境向大米迁移的影响因素,划分为土壤理化特性与各态镉含量两类,运用MB-PLSR建立环境-大米镉转移模型,并且与传统偏最小二乘回归(PLSR)进行性能比较。结果 MB-PLSR较好地利用变量区块的先验信息,使得其无论是在数据拟合、预测性能方面,还是在维度压缩方面,均优于PLSR。结论 MB-PLSR适用于具有变量区块的复杂数据建模,具有较好的信息综合和解释能力。  相似文献   

13.
闫丽娜  覃婷  王彤 《中国卫生统计》2012,29(1):58-60,64
目的 探讨LASSO方法用于高维度、强相关、小样本的生存资料分析.方法 介绍LASSO的基本原理及方法步骤,分别拟合Van't Veer等的乳腺癌基因数据的Cox回归模型(逐步法)和LASSO模型,以作为标准来进行模型评价与比较.结果 采用逐步法筛选出的自变量个数多于LASSO,但模型的决定系数低于LASSO,说明LASSO方法通过将一些没有意义或意义很小的变量系数压缩为0之后,得到的模型反而更优.结论 LASSO通过在系数的绝对值和上增加一个约束条件来对高维资料进行降维,且得到拟合效果更好的模型,比较适合于基因数据的生存分析.  相似文献   

14.
目的探讨adaptive LASSO logistic回归模型在老年人养老意愿影响因素研究中的应用。方法基于厦门市60岁及以上老年人口的多阶段整群抽样调查数据,建立老年人养老意愿影响因素的adaptive LASSO logistic回归模型,通过交叉验证法选择模型中的调和参数λ;通过与全变量和逐步logistic回归结果的比较,探讨adaptive LASSO logistic回归模型的优势。结果共纳入1244名老年人,其养老意愿为家庭养老、社区居家养老和机构养老的比例分别为70.0%、21.1%和8.9%。交叉验证法选择的λ为0.018;此时adaptive LASSO logistic回归模型纳入的自变量为居住地、年龄、婚姻状况、文化程度、子女数、每月退休金收入、公费医疗和住院情况;BIC和AIC分别为1931、1888,均低于全变量logistic回归(2077、1923)和逐步logistic回归(2025、1912)。结论 adaptive LASSO logistic回归模型可用于老年人养老意愿影响因素研究。老年人的养老意愿受多个因素影响。  相似文献   

15.
时间序列预测模型的贝叶斯统计分析   总被引:2,自引:0,他引:2  
贝叶斯(Bayes)统计预测方法是一种以动态模型为研究对象的时间序列预测方法,其基本思想是将人们的经验信息作为已知条件结合到实际模型中,即利用模型信息、数据信息及先验信息(有关总体分布的未知参数的信息)来进行预测.由于结合了分析人员的主观经验及判断,因此可以利用模型监控和干预的方法,合理、科学地处理突发事件等异常情况,和传统的预测方法相比,克服了传统的静态模型难以处理突发事件的缺陷,具有灵活、易于适应外部变化的特点.本文以英国1969~1984年因车祸伤亡人数为资料,探讨贝叶斯统计预测方法在医学领域中的应用.  相似文献   

16.
目的 探索应用Bayesian零膨胀截断对数正态混合模型分析超零左截尾数据的估计效果,以及有信息先验的应用对估计的改善.方法 通过模拟研究考察有信息先验的应用与无信息先验下Bayesian非标准混合模型的估计效果比较,并将方法应用于暴露评估实际资料的分析.结果 结合有信息先验的混合模型估计与无信息先验的模型估计相比,估计有明显的改善;尤其是真零概率的先验影响明显.结论 Bayesian零膨胀截断对数正态混合模型是处理超零左截尾数据灵活的统计方法,考虑来自外部信息的有信息先验是提高估计精度的有效策略.  相似文献   

17.
目的 建立列线图预测老年胸外科患者发生术后谵妄(POD)的风险,并验证该模型的准确性.方法 回顾性选择2018年12月至2020年12月在温州市人民医院接受胸外科手术的老年患者为研究对象.使用最小绝对收缩和选择算子(LASSO)回归模型降低数据维度并确定包含在列线图中的最佳预测因子.应用多因素logistic回归分析建...  相似文献   

18.
目的比较SCAD-支持向量机、支持向量机和弹性网三种方法对基因表达谱数据的变量筛选和预测判别能力。方法根据设置的参数生成不同条件的基因表达谱模拟数据和实际数据,利用FDR、一致性错误率和ROC曲线下面积(AUC值)从三个方面评价三种方法的变量筛选和预测判别能力。结果模拟实验显示在差异变量数不变的情况下,随着差异变量间相关系数的增加,三种方法建立模型的变量筛选和预测判别能力均提高;当差异变量间相关系数不变时,随着差异变量数目的增加,SCAD-支持向量机和弹性网方法的变量筛选和预测判别能力均呈下降趋势,而支持向量机呈现提高趋势。结论 SCAD-支持向量机不仅改善了支持向量机不能直接进行变量筛选的不足同时提高了模型的精度以及判别的准确性。综合来看SCAD-支持向量机的变量筛选和预测判别能力更优,处理变量间有高度相关性的基因表达谱数据时可以获得更高的预测精度和更稳定的模型估计。  相似文献   

19.
目的 探讨应用灰色系统GM(1,1)模型预测AIDS发病率的可行性.方法 应用灰色GM(1,1)模型对南宁市2004~2010年艾滋病发病率数据进行拟合,并外推预测.结果 所建模型,拟合精度高(C≈0.0888,P=1),可用于外推预测.结论 GM(1,1)模型可以很好地模拟和预测AIDS发病率在时间序列上的变化趋势,将其应用于AIDS发病预测是可行的.  相似文献   

20.
目的研究稀疏模型(Lasso、ENET、ssLasso、贝叶斯变量选择回归模型(BVSR))与多基因模型(线性混合模型(LMM)、贝叶斯稀疏线性混合模型(BSLMM)、狄利克雷回归模型(DPR))等九种遗传预测方法在全基因组表达数据中对复杂疾病的遗传预测表现。方法通过模拟研究评价每种方法在不同的较大基因稀疏程度和不同的遗传度下的预测精度,利用乳腺癌数据进行表型预测。结果模拟结果显示预测方法在满足各自的模型假设时表现结果最好。在相同模拟假设情况下,随着遗传度的增高,模型的预测准确性也逐渐增高。BVSR运算速度和BSLMM运算速度相似,由于迭代次数的影响,BVSR与BSLMM的运算速度低于LMM。实际的乳腺癌数据显示BSLMM和DPR的预测精度优于其他方法。结论 BSLMM和DPR在不同模拟情形下和真实数据中均表现出稳健的预测能力,值得在实际应用中推荐。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号