首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
目的 探讨SAM与支持向量机相结合(SAM-SVM)的方法在高维数据中的变量筛选效果.方法采用R语言编程,根据SAM算法,按照变量重要性排序,通过支持向量机分类模型验证其筛选效果.经过多次迭代满足收敛条件时,自动选择"最优"模型.将该方法应用于真实高维数据考核其应用效果,并通过模拟试验验证其有效性.结果对3种疾病的真实高维基因表达数据分别采用上述方法进行变量筛选,均取得了良好的效果,模拟试验也显示使用筛选后的变量再利用支持向量机进行分类判别,具有较高的准确性.结论基于SAM的支持向量机逐步判别方法在解决小样本、非线性及高维问题中表现出许多潜在的优势,可以有效地用于分析高维基因表达数据的特征提取问题.  相似文献   

2.
目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。  相似文献   

3.
目的应用支持向量机模型法评估研究入境国际航行船舶携带输入外来医学媒介生物的风险。方法以中国第2大港、世界第5大港的宁波港作为研究范围,以2014年到港的国际航行船舶为研究对象,对834艘媒介生物阳性船舶和2 151艘媒介生物阴性船舶的33项指标展开调查,采集数据信息。对数据进行清洗及变量筛选后应用R语言编程实现支持向量机模型法建模训练,并以所建模型预测新到港的1 333艘次船舶外来媒介携带风险。结果经过12种支持向量机模型的筛选,以预测精度为判定指标,选定分类器与核函数两个参数分别为"nu-classification"和"高斯函数"的支持向量机模型为最优模型,并构建起基于支持向量机的外来医学媒介生物携带风险与入境国际航行船舶关联因子间的非线性关系模型。模型训练过程的正确分类率为78.89%,通过该模型预测船舶携带外来媒介风险与实际检疫结果的符合率达到82.52%,预测效果良好。结论针对高度不确定的非线性系统,应用支持向量机模型法可实现更加精确的预测功能,为国境卫生检疫风险评估及预警方面的研究提供理论基础。  相似文献   

4.
目的建立一种预处理方法,在进行医疗费用数据挖掘时,将因变量(呈偏态分布的连续性变量)转换为分类变量,从而得到更加科学合理的研究结果。方法以广东省甲型病毒性肝炎医疗费用调查取得的115例患者为研究对象,分别采用中位数的分类方法和K-means聚类的方法作为预处理方法,对医疗费用这一呈偏态分布的因变量进行分类,然后建立支持向量机数学模型,采用支持向量机进行医疗费用影响因素分析;通过比较模型的预测精度、模型收益以及影响因素的筛选结果,确定最优的预处理方法。结果115例甲肝病人甲肝总住院费用中位数为2744.69元,呈偏态分布。应变量以中位数方法分类,采用支持向量机模型筛选影响因素结果显示,对医疗费用影响最大的有7个变量(前3位为医院等级、性别、疾病类型);采用聚类分析进行数据预处理时筛选影响因素结果显示,对医疗费用影响最大的有7个变量(前3位为医院等级、住院天数、支付方式)。与中位数方法的分类方法比较,采用聚类分析进行数据预处理时,支持向量机模型结果得到的预测精度由91.30%上升到97.39%;收益图表陡峭地升高到100.00%然后渐渐变得平缓,显示模型收益更好;影响因素筛选结果更加科学合理,符合实际情况。结论聚类分析是一种优秀的数据挖掘预处理方法,具有良好的应用性。  相似文献   

5.
目的探讨基于平均影响值(MIV)的支持向量机(SVM)在遗传数据疾病分类预测和变量筛选中的应用,为遗传数据的疾病分类与特征提取方面提供方法学参考。方法以GAW18(genetic analysis workshop 18)数据为例,采用基于MIV的SVM建立预测模型,并和logistic回归模型、SVM、多层感知机和决策树分类模型进行比较分析,评价基于MIV的SVM预测分类和变量筛选效果。结果经过平均影响值的支持向量机算法处理后,六个SNPs位点(13_28567172、3_127394820、1_1658093、9_123969834、1_174996637、17_17498492)组合的变量子集,获得78.125%的分类准确率,明显优于其他分类模型。结论基于MIV的SVM能比较有效的在实现遗传数据变量筛选的同时提高分类预测能力,避免了变量间的交互作用,为探索各种疾病发病机制和寻找易感SNPs位点提供线索,具有一定的研究和应用价值。  相似文献   

6.
支持向量机在基因表达数据分类中的应用研究   总被引:1,自引:1,他引:1  
目的探讨支持向量机在基因表达数据分类研究中的应用条件和效果。方法使用支持向量机软件包,通过实际基因表达数据考核其应用效果,并通过模拟试验进一步验证和研究在含有大量无差异表达基因情况下对分类产生的影响。结果对四种疾病的真实基因表达数据的分类取得了良好的效果,模拟试验则显示了支持向量机对分类具有较高的准确性,但随无差异基因数量的增加其分类效果呈明显下降的趋势;在类间分离一定的情况下,差异表达基因数目较多、基因之间具有较高的相关性时,更容易获得好的分类效果。结论支持向量机在解决小样本、非线性及高维问题中表现出许多潜在的优势,可以有效地用于分析基因表达数据的分类问题。  相似文献   

7.
支持向量机原理及其在医学分类中的应用   总被引:1,自引:0,他引:1  
目的 介绍一种具有较高精度的分类模型--支持向量机在解决分类问题时的应用.方法 以胃癌流行病学调查资料为例分别建立支持向量机、决策树、logistic 回归模型,比较三种模型性能优劣.结果 对于测试集样本SVM预测精度为99.052%,C5.0决策树预测精度为93.365%,logistic 回归预测精度为90.995%,SVM具有良好的泛化能力.结论 当传统统计分析条件不能得到满足或效果不佳时支持向量机能够达到良好的预测结果,在医学领域具有较好的应用前景.  相似文献   

8.
朱杰  朱昆鹏  沈迎 《职业与健康》2012,28(21):2662-2664
目的将最小二乘支持向量机(LS-SVM)技术应用到传染病预测中,寻找更加理想的预测结果。方法以某市1991—2002年乙型肝炎(乙肝)月发病率数据建立最小二乘支持向量机预测模型,对2003年1—6月的月发病率进行预测。结果 IS-SVM预测值分别为0.709 9,0.668 1,0.502 5,0.685 1、0.578 5,0.773 7,通过与径向基函数(RBF)神经网络模型和累积式自回归动平均模型(ARIMA)预测结果进行比较,预测精度明显高于RBF网络模型和ARIMA模型,相对误差明显减少,仅为ARIMA模型的23.62%,RBF网络模型的54.69%。结论 LS-SVM模型对乙肝发病率的预测精度更高,效果更好,也验证了支持向量机方法预测能力出色的理论优点,证明了支持向量机技术在传染病预测领域同样有着良好的表现。  相似文献   

9.
基因表达数据的随机森林逐步判别分析方法   总被引:3,自引:2,他引:3  
目的给出一种新的随机森林算法,它能在建模过程中自动对变量进行筛选,建立“最优”判断模型。方法采用变量重要性评分和逐步迭代算法选择有作用的变量;通过实际基因表达数据考核其应用效果,并使用R语言编程做模拟试验验证其有效性。结果三种疾病基因表达数据的判别模型,在包含很少量的基因情况下便获得了理想的分类效果;模拟试验则显示在类间区分度较大的情况下,随机森林逐步判别分析的效果明显,能有效地将有作用的变量保留在模型中,提高模型的判别效果;在类间区分度不够大的情况下分类效果提高不明显。结论随机森林逐步判别分析可以有效地应用于基因表达数据的基因筛选和分类研究,但要特别注意由随机波动对分析结果造成的影响。  相似文献   

10.
基于支持向量机的婴儿死亡率预测模型   总被引:4,自引:0,他引:4  
张彤  殷菲  倪宗瓒 《中国卫生统计》2004,21(2):78-80,84
目的将通常的回归分析方法应用于婴儿死亡率预测,结果往往不尽人意.因此,本文采用支持向量机回归算法建立预测模型对婴儿死亡率进行预测.方法采用支持向量机回归算法建立回归模型,并对全国22个省的32个县的婴儿死亡率进行预测.并用径向基函数神经网络建立回归模型对同一数据进行预测.结果预测值与实际值误差较小.该模型具有较高的预测精度.并且,支持向量机预测精度高于径向基函数神经网络.结论利用SVM回归算法建立预测模型是一个新颖而有发展前途的方法.  相似文献   

11.
目的 比较L1正则化、L2正则化和弹性网三种惩罚logistic回归对SNPs数据的变量筛选能力。 方法 根据所设置的参数生成不同条件的SNPs仿真数据,利用正确率、错误率和正确指数从三个方面评价三种惩罚logistic回归的变量筛选能力。 结果 正确率表现为L2正则化惩罚logistic回归>弹性网惩罚logistic回归>L1正则化惩罚logistic回归;错误率表现为L2正则化惩罚logistic回归>弹性网惩罚logistic回归>L1正则化惩罚logistic回归;正确指数则表现为弹性网惩罚logistic回归>L1正则化惩罚logistic回归>L2正则化惩罚logistic回归。 结论 综合来看弹性网的筛选能力更优,弹性网融合L1、L2两种正则化的思想,在高维数据分析中既能保证模型的稀疏性,便于结果的解释,又解决了具有相关性自变量不能同时进入模型的问题。  相似文献   

12.
The development of screening instruments for psychiatric disorders involves item selection from a pool of items in existing questionnaires assessing clinical and behavioral phenotypes. A screening instrument should consist of only a few items and have good accuracy in classifying cases and non‐cases. Variable/item selection methods such as Least Absolute Shrinkage and Selection Operator (LASSO), Elastic Net, Classification and Regression Tree, Random Forest, and the two‐sample t‐test can be used in such context. Unlike situations where variable selection methods are most commonly applied (e.g., ultra high‐dimensional genetic or imaging data), psychiatric data usually have lower dimensions and are characterized by the following factors: correlations and possible interactions among predictors, unobservability of important variables (i.e., true variables not measured by available questionnaires), amount and pattern of missing values in the predictors, and prevalence of cases in the training data. We investigate how these factors affect the performance of several variable selection methods and compare them with respect to selection performance and prediction error rate via simulations. Our results demonstrated that: (1) for complete data, LASSO and Elastic Net outperformed other methods with respect to variable selection and future data prediction, and (2) for certain types of incomplete data, Random Forest induced bias in imputation, leading to incorrect ranking of variable importance. We propose the Imputed‐LASSO combining Random Forest imputation and LASSO; this approach offsets the bias in Random Forest and offers a simple yet efficient item selection approach for missing data. As an illustration, we apply the methods to items from the standard Autism Diagnostic Interview‐Revised version. Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

13.
任雨冬  陆震  李婧惟  刘艳 《实用预防医学》2020,27(12):1537-1539
目的 使用高斯核函数和欧式距离函数改进微阵列显著分析法(significance analysis of microarray,SAM)得到MSAM1法(modified significance analysis of microarray-1,MSAM1 )和MSAM2法(modified significance analysis ofmicroarray-2,MSAM2 ),与SAM法、Relief法、支持向量机递归特征消除法(support vector machine recursive featureelimination, SVM-RFE )进行对比,评价在基因表达数据中MSAM1法、MSAM2法的基因选择和分类预测能力。 方法 从Bioconductor中的golubEsets包获得leukemia数据集(Golub等人给出了该数据集所包含的50个差异基因),运用R软件实现5种算法,分别用正确率和ROC曲线下面积即AUC值评价基因选择能力和分类预测能力,用Kruskal-Wallis H检验比较5种方法的正确率和AUC值的组间差异,进一步的两两比较采用SNK-q检验。 结果 正确率和AUC值均表现为MSAM1和MSAM2最优,SAM和SVM-RFE法次之,Relief法排在最后;5种方法的组间差异有统计学意义(H=150.333,P<0.0001和H=293.2579,P<0.0001),两两比较结果显示虽然MSAM1和MSAM2之间差异无统计学意义(P>0.05),但两种方法与其他3种方法之间差异均有统计学意义(P<0.05)。 结论 用高斯核函数和欧式距离函数改进的加权SAM法提高了SAM法的基因选择和分类预测能力,在实际基因表达数据的应用中可以得到更为稳定的分析结果。  相似文献   

14.
目的 采用生物信息学研究方法分析大气污染对儿童外周血基因表达谱的影响,为后期预防、诊断及治疗提供一定的理论参考依据。方法 从基因芯片公共数据库 (Gene Expression Omnibus, GEO) 中下载一组来自不同大气污染暴露下外周血基因芯片数据,并将数据导入分析软件QOE3.1、GenClip2.0、GATHER等,分析基因表达谱、蛋白-蛋白相互作用网络、分子生物学过程及基因功能,寻找大气污染对儿童影响的关键节点基因。结果 共发现差异表达基因2 172个。根据研究目的,对Fold Change≥3的223个儿童差异表达基因进行分析,结果表明这些靶基因主要参与细胞对外部刺激物的反应、细胞信号传导、核苷磷酸结合等生物学功能。进一步分析发现,NR4A1SGK1TUBB1PINK1THOC3基因为蛋白-蛋白相互作用网络中心节点,删除这些节点蛋白后,网络结构涣散,同时研究发现基因PINK1灵敏度和特异度最高,诊断价值最大。结论 不同污染状态下儿童基因表达不同,差异基因主要参与细胞对外部刺激物的反应、细胞信号传导、核苷磷酸结合等生物学功能,基因PINK1的诊断能力最强。  相似文献   

15.
目的 借助数据挖掘技术,联合流行病学特征和临床症状资料构建肺癌危险度预测模型,评价各模型用于肺癌危险度预测的性能,并筛选出最优模型。方法 选取460例肺癌患者和560例肺良性疾病患者为研究对象,收集其流行病学特征和临床症状共16个自变量。将研究对象按照3∶1的比例随机分为训练集与测试集,应用支持向量机(support vector machine, SVM)、决策树C5.0和人工神经网络(artificial neural network, ANN)分别建立肺癌危险度预测模型,并比较不同模型的预测性能。结果 经特征提取,痰中带血、发热出汗和吸烟史等9个变量被筛选为有效变量,用来构建肺癌危险度预测模型。测试集中SVM、决策树C5.0和ANN模型的灵敏度分别为74.1%、62.5%和92.9%;特异度分别为76.2%、80.4%和64.3%;阳性预测值分别为70.9%、71.4%和67.1%;阴性预测值分别为79.0%、73.2%和92.0%;准确度分别为75.3%、72.5%和76.9%;曲线下面积分别为0.752(95%CI:0.694~0.803)、0.715(95%CI:0.655...  相似文献   

16.
目的 筛选出缺血性脑卒中抗栓治疗后发生消化道出血的关键变量,评价Catboost、支持向量机(SVM)、logistic回归(LR)三种机器学习算法对缺血性脑卒中抗栓治疗后消化道出血的预测效果。方法 选取2018年1月1日—2020年1月1日南昌大学第二附属医院确诊为急性缺血性脑卒中并接受抗栓治疗的住院患者,根据单因素分析结果确定初始变量,综合多因素logistic回归、RFE、lasso回归三种特征选择方法筛选变量,比较Catboost、SVM、LR在缺血性脑卒中抗栓治疗后消化道出血预测模型中的效果。结果 在1 605名缺血性脑卒中患者中,消化道出血的患者84名,单因素分析初步确定了17个变量,根据三种特征选择方法确定年龄、GCS、谷草/谷丙、碱性磷酸酶、低密度脂蛋白、出血性转化为关键变量,构建机器学习模型后重复交叉验证结果显示, Catboost算法的综合性能较好,特异度、准确率、AUC、阳性似然比分别为0.851(95%CI:0.85~0.853)、0.84(95%CI:0.838~0.841)、0.848(95%CI:0.841~0.855)、4.463(95%CI:4.378...  相似文献   

17.
  目的  探究高维组学数据中结局为二分类时基于随机森林(random forest, RF)变量重要性评分的变量筛选方法,并选择合适方法构建结局预测模型。  方法  首先根据不同的变量筛选目标,对最小优化变量筛选类RF算法[递归特征消除(recursive feature elimination, RFE)-RF、biosigner]与全部相关变量筛选类RF算法(Boruta、vita、altmann、r2vim)在高维数据中识别重要变量的能力进行了模拟比较。然后结合不同方法优势用于弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma, DLBCL)分型相关基因的筛选,并构建DLBCL分型诊断模型。  结果  模拟研究表明,vita方法的灵敏度较高,biosigner方法的阳性预测值较高。实例分析表明,经vita方法筛得1 019个与DLBCL分型相关的基因,后经biosigner方法筛得77个与DLBCL分型相关的基因。所建DLBCL分型诊断模型的受试者工作特征(receiver operating characteristical, ROC)曲线下面积(area under the ROC curve,AUC)为0.910。  结论  vita及biosigner方法可用于DLBCL分型相关基因的初步和最终筛选阶段。由最终筛得基因所建立的模型可有效实现DLBCL的分型诊断。  相似文献   

18.
目的 探讨合成少数类过采样技术(SMOTE)结合机器学习模型在老年人是否具备健康素养预测评估中的应用。方法 利用单因素筛选从资料中筛选出与是否具备健康素养有关联的变量;以筛选出的变量作为输入变量,以是否具备健康素养为结局变量,分别在经SMOTE算法处理前后的数据集中建立logistic回归模型、随机森林和SVM模型,通过受试者工作特征曲线(ROC)来评价模型性能。结果 Logistic回归、随机森林和SVM在SMOTE算法处理前的测试集中的准确率分别为0.833、0.600和0.636,3种模型的ROC曲线下面积(AUC)分别为0.723、0.815和0.728;在SMOTE算法处理后的测试集中的准确率分别为0.936、0.908和0.890,3种模型的AUC分别为0.896、0.944和0.897。结论 随机森林模型在老年人是否具备健康素养的预后评估中具有较高的应用价值。  相似文献   

19.
目的 探索miR-199b-5p在骨肉瘤中的预测和诊断作用。方法 运用RT-PCR方法检测骨肉瘤患者组织中miR-199b-5p和DRAM的表达水平;利用生物信息学预测工具预测miR-199b-5p的靶基因;分析DRAM与miR-199b-5p的表达关系。结果 miR-199b-5p在组织中有表达,和癌旁正常组织相比,肿瘤组织中的miR-199b-5p表达水平显著升高(P < 0.05);miR-199b-5p与患者的性别、发病年龄、病变部位、肿瘤分型和分期无明显关系(P > 0.05)。研究还发现DRAM在各种组织中均有表达,而DRAM mRNA表达在两者中无明显差异,DRAM与miR-199b-5p呈负相关的表达关系。结论 本研究表明miR-199b-5p可以作为骨肉瘤一个诊断标志物,而DRAM可能是miR-199b-5p的调控靶基因。  相似文献   

20.
目的 探讨孤独症谱系障碍(ASD)儿童外周血ENO2基因甲基化修饰的水平,为ASD的早期筛查提供理论依据。方法 2018年1-12月在上海市儿童医院儿童保健科收集5对性别和年龄分别匹配的ASD儿童和正常对照儿童的外周血,应用Medip-chip甲基化芯片分析,发现ASD儿童外周血均存在ENO2基因的高甲基化改变,本研究在此基础上进一步扩大样本至101对ASD与正常对照儿童,应用亚硫酸盐变性测序检测ENO2基因甲基化水平,并应用荧光定量PCR和酶联免疫吸附法分别在mRNA和蛋白水平检测ENO2基因的表达。结果 与正常对照组儿童相比,ASD儿童中有16例外周血ENO2基因具有高甲基化改变,频率为15.8%(16/101)。对ENO2基因启动子16个CpG位点甲基化频率进行统计,发现越靠近转录的起始位点,甲基化的频率越高。在16例具有ENO2基因高甲基化改变的ASD儿童中,ENO2基因mRNA的平均水平约为正常对照组的30%。16例高甲基化的ASD儿童ENO2蛋白值为(15.15±3.52)μg/L,约为正常对照组儿童[(33.78±8.18) μg/L]的一半。结论 15.8%的ASD儿童外周血存在ENO2基因的高甲基化改变,ENO2表达的降低有可能成为一部分ASD筛查的标记物。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号