摘 要: | 目的 通过生物信息学方法和机器学习算法挖掘基因表达综合数据库(Gene Expression Omnibus, GEO)中胰腺癌的关键表达基因,探究胰腺癌的诊断标志物。方法 以GEO数据库获得的芯片数据集GSE15471、GSE16515作为训练组,GSE28735作为验证组,用于筛选出差异表达基因(Differentially Expressed Genes, DEGs)。利用套索算法(Least absolute shrinkage and selection operator, Lasso)与支持向量机的递归特征消除算法(Support Vector Machines with Recursive Feature Elimination, SVM-RFE)从DEGs中筛选出胰腺癌的关键表达基因,并在验证组中进行验证。采用受试者工作特征(Receiver Operating Characteristic, ROC)曲线的曲线下面积(Area Under Curve, AUC)评价关键表达基因的诊断效能。使用Kaplan-Meier生存曲线对关键表达基因进行预后生存分析。通过Cell...
|