首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
针对人工焊点缺陷识别方法进行研究,提出了一种基于特征聚集度的模糊C均值聚类(FCM)与松弛约束支持向量机(RSVM)联用的分类识别算法。在提取人工焊点特征向量的基础上,算法首先对样本特征数据进行模糊C均值聚类,依据样本隶属度函数计算不同特征的特征聚集度,并由特征聚集度指标改进RSVM算法中的松弛量参数,建立最终的分类器模型。实验结果表明:本文提出的算法建立了泛化能力更强的分类模型,能有效抑制噪声及模糊边界点对分类模型的影响,在人工焊点缺陷识别的应用中获得了满意的识别结果。  相似文献   

2.
目的:探讨多个数据集中结直肠组织的Rho GTP酶活化蛋白44(Rho GTPase activating protein 44,ARHGAP44)表达情况及其与结直肠癌临床病理特征和预后的关系。方法:利用基因表达汇编(the gene expression omnibus,GEO)及癌症和肿瘤基因表达图谱(the cancer genome atlas,TCGA)数据集汇总结直肠癌相关数据,分析ARHGAP44表达及其与结直肠癌临床病理学的关系,用Kaplan-Meier分析和Cox回归模型评价其预后价值。采用RT-qPCR方法检测临床样本中ARHGAP44基因表达情况,之后使用基因集富集分析(gene set enrichment analysis,GSEA)预测通路,并使用单样本基因集富集分析(single-sample gene-set enrichment analysis,ssGSEA)算法,计算ARHGAP44与免疫细胞浸润之间的关联。结果:在TCGA、GEO数据集及临床样本中,ARHGAP44表达在肿瘤中降低(P<0.001),且与T分期及TNM分期有关(P<...  相似文献   

3.
提出一种基于不一致率的特征选择及数据分类方法,并给出特征选择和分类方法在Weka中的完整实现;利用Weka中的实现,对某三甲医院的多个医疗数据集进行实验分析;通过Java调用Weka设计开发了一套在线病情分析系统,医生可通过Web上传医疗数据集,系统后台自动进行数据预处理、特征选择及分类,最终给出病情分类结果,具有较高的诊断决策支持作用。  相似文献   

4.
目的 探究衰老相关分泌表型(SASP)在骨关节炎(OA)中的预测标志物。方法 通过基因表达综合(GEO)数据库获取OA数据集,通过PubMed收集SASP基因。使用最小绝对收缩和选择算子(LASSO)、支持向量机递归特征消除(SVM-RFE)和随机森林(RF) 3种机器学习算法筛选SASP在OA中候选预测标志物,将3种机器学习算法分别筛选出的候选预测标志物取交集得到共同基因,使用共同基因构建OA预测模型,采用受试者操作特征(ROC)曲线下面积(AUC)值评价模型的预测能力,并选取预测模型中最优基因(P <0.001)进行动物实验验证。利用CIBERSORT探究OA数据集中OA患者外周血单核细胞样本和正常人外周血单核细胞样本的免疫浸润水平。使用Cytoscape可视化共同基因的miRNA-TF-m RNA调控网络。将12只SD大鼠分为OA组和正常组,每组6只,OA组采用前交叉韧带切断法构建OA模型,通过实时荧光定量PCR (RT-q PCR)对2组大鼠膝关节软骨组织中最优基因的表达进行验证。结果 通过GEO数据库获取1个OA数据集GSE48556,数据集中包括106个OA患者外周血...  相似文献   

5.
目的联合采用近红外(NIR)和中红外(MIR)光谱技术,通过数据融合方式建立姜半夏及其伪品姜虎掌南星的快速鉴别方法。方法收集22批姜半夏和14批姜虎掌南星样品,采集其NIR和MIR光谱数据,以偏最小二乘判别分析(PLS-DA)算法分别建立单一光谱数据和融合数据的姜半夏及其伪品的判别模型,以分类准确率对不同PLS-DA模型的判别结果进行评价,并以得分图展示样本在不同PLS-DA模型潜变量空间的分布情况。结果采用NIR光谱建立的PLS-DA模型对校正集和验证集的分类准确率分别为100%和84.62%,采用MIR光谱建立的PLS-DA模型对校正集和验证集的分类准确率分别为100%和92.41%,将NIR和MIR光谱数据融合后建立的PLS-DA模型对校正集和验证集的分类准确率均为100%,并且数据融合后,样本在PLS-DA模型潜变量空间呈现明显的分类聚集现象。结论数据融合方式可以显著提高姜半夏红外光谱鉴别准确率。本文为鉴别姜半夏及其伪品提供了新的研究思路和解决方法,为保证姜半夏临床用药安全、有效提供依据。  相似文献   

6.
网络流量表现出突发和自相似等动态特性,使得网络应用很难进行准确分类。本文分析了流量动态特性产生的不平衡性及其重尾分布,提出了基于重尾分布的流量分类定量分析模型。基于该分析模型,研究分类算法中训练集采集位置和规模大小的选取。考虑到混合流量中的次要数据流通常是小样本,选用支持向量机(SVM)算法进行流量分类。实验结果表明:重尾分布的流量分类训练集可以选择最佳采集位置和规模,以获得较好的分类模型,该定量分析模型对流量分类及提高分类精度有指导意义。  相似文献   

7.
目的 利用基因芯片数据挖掘识别与乳腺癌组织学分级相关的特征基因,对乳腺癌的临床诊断和生物医学研究起到借鉴和参考作用.方法 从公共基因芯片数据库GEO(gene expression omnibus)获得乳腺癌芯片表达数据,利用支持向量机提取获得不同组织学分级的肿瘤样本的特征基因,并对这些基因进行生物学功能分析.结果 获得了64个特征基因,分类正确率达到100%,这些基因与癌症有较大的相关性,主要集中在转录调控、离子运输、器官发生发育等多个生物学途径中.结论 通过对基因芯片数据的挖掘,可以从全局上了解肿瘤的表达情况,加深对乳腺癌细胞分化分子机制的认识.  相似文献   

8.
提出一种新颖的基于特征抽取的异常检测方法,应用主分量分析(PCA)和核主分量分析(KPCA)抽取入侵特征,再应用支持向量机(SVM)检测入侵。其中PCA对输入特征做线性变换,而KPCA通过核函数进行非线性变换。利用KDD 99数据集,将PCA-SVM、KPCA-SVM与SVM、PCR、KPCR进行比较,结果显示:在不降低分类器性能的情况下,特征抽取方法能对输入数据有效降维。在各种方法中,KPCA与SVM的结合能得到最优入侵检测性能。  相似文献   

9.
沈琦玮  钟宗烨 《广西医学》2023,(9):1060-1064
目的 基于生物信息学分析软骨肉瘤的关键基因及发病机制。方法 从GEO数据库获取人类软骨肉瘤相关基因芯片数据集GSE48418和GSE30835,包含17例软骨肉瘤患者样本和7例健康对照者样本。应用R语言软件进行差异表达基因(DEGs)分析。应用DAVID数据库对两个数据集共同的DEGs进行基因本体论(GO)功能富集分析及京都基因与基因组百科全书(KEGG)通路富集分析。使用STRING数据库及Cytoscape软件,针对共同DEGs构建蛋白-蛋白相互作用网络,并利用Cytoscape软件筛选关键基因。结果 两组芯片数据集的共同DEGs有62个,包含28个表达上调基因和34个表达下调基因。GO功能富集分析结果显示,共同DEGs富集在细胞与基质黏附、细胞与基质黏附的调节、肌细胞迁移、小梁形态发生、小梁组成等生物学过程,富集在含胶原的细胞外基质(ECM)、内质网腔、胶原三聚体等细胞组分,涉及糖胺聚糖结合、ECM结构成分提供的抗压支持、含硫化合物结合等分子功能。KEGG通路富集分析结果显示,DEGs与黏着力、磷脂酰肌醇-3-激酶(PI3K)/蛋白激酶B(AKT)、ECM-受体相互作用等信号通路...  相似文献   

10.
目的:筛选乙型肝炎病毒(HBV)与丙型肝炎病毒(HCV)相关性肝癌的差异表达基因,探讨其基因功能富集的差异,促进对HBV、HCV相关性肝癌致病机理的了解。方法:从公共基因芯片数据库中下载数据集GSE44074,利用在线软件GEO2R筛选HBV相关性肝癌与HCV相关性肝癌间的差异表达基因,利用DAVID数据库、基因集富集分析(GSEA)方法等分析预测HBV、HCV相关性肝癌的基因功能富集的差异。结果:利用数据集GSE44074共筛选出34个差异表达基因(矫正后P<0.05)。HBV相关肝癌样本中高表达的基因与多细胞组织加工和生物学过程负向调控有关。HCV相关肝癌组中线粒体呼吸链、细胞器膜蛋白及线粒体膜功能等基因功能集存在显著上调。结论:HBV、HCV相关性肝癌样本间存在多个差异表达基因及差异基因功能富集。  相似文献   

11.
In the growing scenario, microarray data is extensively used since it provides a more comprehensive understanding of genetic variants among diseases. As the gene expression samples have high dimensionality it becomes tedious to analyze the samples manually. Hence an automated system is needed to analyze these samples. The fuzzy expert system offers a clear classification when compared to the machine learning and statistical methodologies. In fuzzy classification, knowledge acquisition would be a major concern. Despite several existing approaches for knowledge acquisition much effort is necessary to enhance the learning process. This paper proposes an innovative Hybrid Stem Cell (HSC) algorithm that utilizes Ant Colony optimization and Stem Cell algorithm for designing fuzzy classification system to extract the informative rules to form the membership functions from the microarray dataset. The HSC algorithm uses a novel Adaptive Stem Cell Optimization (ASCO) to improve the points of membership function and Ant Colony Optimization to produce the near optimum rule set. In order to extract the most informative genes from the large microarray dataset a method called Mutual Information is used. The performance results of the proposed technique evaluated using the five microarray datasets are simulated. These results prove that the proposed Hybrid Stem Cell (HSC) algorithm produces a precise fuzzy system than the existing methodologies.  相似文献   

12.
Microarray technology is utilized by the biologists, in order to compute the expression levels of thousands of genes. Cervical cancer classification utilizing gene expression data depends upon conventional supervised learning methods, wherein only labeled data could be used for learning. The previous methodologies had problem with appropriate feature selection as well as accurateness of classification outcomes. So, the entire performance of the cancer classification is decreased meaningfully. With the aim of overcoming the aforesaid problems, Enhanced Bat Optimization Algorithm with Hilbert-Schmidt Independence Criterion (EBO-HSIC) and Support Vector Machine (SVM) algorithm is presented in this research for identifying the specific genes from the gene expression dataset that belongs to cancer microarray. This proposed system contains phases of instance normalization, module detection, gene selection and classification. By Fuzzy C Means (FCM) algorithm, the normalization is performed for eliminating the inappropriate features from the gene dataset. Meanwhile, for effective feature selection, the EBO algorithm is used for producing more appropriate features via improved objective function values. For determining a subset of the most informative genes utilizing a rapid as well as scalable bat algorithm, this proposed method focuses on measuring the dependence amid Differentially Expressed Genes (DEGs) as well as the gene significance. The algorithm is dependent upon the HSIC and was partially enthused by EBO. With the help of SVM classifier, these gene features are categorized very precisely. Experimentation outcomes demonstrate that the presented EBO with SVM algorithm confirms a clear-cut classification performance for the given gene expression datasets. Hence the result provides higher performance by launching EBO with SVM algorithm to obtain greater accuracy, recall, precision, f-measure and less time complexity more willingly than the previous techniques.  相似文献   

13.
Background The major difficulty in the research of DNA microarray data is the large number of genes compared with the relatively small number of samples as well as the complex data structure. Random forest has received much attention recently; its primary characteristic is that it can form a classification model from the data with high dimensionality. However, optimal results can not be obtained for gene selection since it is still affected by undifferentiated genes. We proposed recursive random forest analysis and applied it to gene selection. Methods Recursive random forest, which is an improvement of random forest, obtains optimal differentiated genes after step by step dropping of genes which, according to a certain algorithm, have no effects on classification. The method has the advantage of random forest and provides a gene importance scale as well. The value of the area under the curve (AUC) of the receiver operating characteristic (ROC) curve, which synthesizes the information of sensitivity and specificity, is adopted as the key standard for evaluating the performance of this method. The focus of the paper is to validate the effectiveness of gene selection using recursive random forest through the analysis of five microarray datasets; colon, prostate, leukemia, breast and skin data. Results Five microarray datasets were analyzed and better classification results have been attained using only a few genes after gene selection. The biological information of the selected genes from breast and skin data was confirmed according to the National Center for Biotechnology Information (NCBI). The results prove that the genes associated with diseases can be effectively retained by recursive random forest. Conclusions Recursive random forest can be effectively applied to microarray data analysis and gene selection. The retained genes in the optimal model provide important information for clinical diagnoses and research of the biological mechanism of diseases.  相似文献   

14.
基因表达特征分析是基因芯片的研究热点。在探讨基因表达特征分析框架的基础上,介绍基于统计学方法的特征基因选择,并构建支持向量分类器。一组白血病微阵列数据分析结果表明,获得的基因表达特征很好地体现了两种类型的白血病(AML和ALL)分子水平上的表达模式差异。  相似文献   

15.
驾驶员在压力状态下行车会对驾驶安全产生很大影响,严重时甚至会造成交通事故。为准确检测驾驶员的压力状态,提取了驾驶员生理信号的多模态特征并提出了一种基于多种过滤式算法(Multi-filter,MF)与禁忌搜索算法(Tabu Search,TS)相结合的混合算法来选择有效特征向量。该算法首先采用多种过滤式算法的综合评分对原始特征集进行排序和过滤,有效降低特征维度;然后利用禁忌搜索算法进一步选出最优特征组合;最后采用支持向量机对3种不同驾驶压力水平进行分类。实验结果表明,本文提出的混合算法不仅有效地消除了高维特征向量中的冗余信息,还提升了分类准确率。  相似文献   

16.
针对实际化工生产过程中故障数据缺乏,采用适合小样本问题的支持向量机(SVM)对化工过程稳态故障进行诊断。为了保证在线故障诊断的实时性,消除高维监控数据以及系统噪声对故障诊断的干扰,提出了一种新的基于二进制量子粒子群优化(BQPSO)算法和SVM的故障特征选择方法。仿真实验表明:BQPSO算法具有良好的全局搜索能力,能够快速、准确地搜索到故障特征变量;而基于特征选择的SVM故障诊断方法能可靠地实现对复杂化工过程的在线故障诊断。  相似文献   

17.
乳腺癌基因芯片数据分析   总被引:1,自引:0,他引:1  
目的 以乳腺癌病人的表达谱芯片数据为基础 ,探寻乳腺癌复发的相关基因。方法 对标化芯片数据进行缺失值处理后 ,分别用单因素COX回归模型和综合了聚类及多因素COX回归的综合法来筛选兴趣基因 ,然后通过兴趣基因对病人做样品聚类 ,以灵敏度、特异度、约登指数和Kaplan Meier法评价分类效果 ,最后结合文献和蛋白质数据库探寻乳腺癌复发的相关基因。结果 综合法筛出的 30个P <0 .0 1的基因对乳腺癌病人复发状况的预测效果最佳 ;单因素COX回归筛出的 1 0 2个P <0 .0 1的基因的预测效果较差 ;单因素COX回归筛出的 1 5个P <0 .0 0 1的基因预测效果最差。结论 综合法筛选得到的 30个基因可用来评价病人的预后状况 ,为进一步的生物学研究提供待选基因。  相似文献   

18.
研究医药文本特点,提出了基于免疫克隆选择算法的医药文本分类特征选择方法。该算法引入Jeffries-Matusita距离设计亲和度,并利用相应的克隆算子确保算法快速收敛到全局最优解。实验结果表明,该算法在提高医药文本分类精度的同时,有效降低了特征维数。与基于BP神经网络特征选择和基于遗传算法特征选择的结果相比较,在有限代数内,该算法能收敛到更优的特征子集。  相似文献   

19.
目的:探讨不同小波滤波对影像组学特征相关性和诊断效能的影响。方法:回顾性收集143例结直肠癌患者(淋巴结转移阳性64例,阴性79例)的术前CT图像,经放射科医师勾画肿瘤区域后,使用Matlab编写的软件提取不同类型小波的影像组学特征。通过计算相关系数分析不同小波间同名特征的相关性。采用最小绝对收缩和选择算子(the least absolute shrinkage and selection operator,LASSO)构建不同的小波特征集预测淋巴结转移的影像组学标签并采用Delong’s检验比较其效能。结果:随着小波阶数差异的增大,小波间高相关同名特征数量减少。部分特征在不同小波间易出现高相关性。单个小波的特征集中rbio2.2,sym7和db7的特征子集构建的影像组学标签诊断效能最高。Daubechies系列小波特征集构建的标签预测淋巴结转移效能最高,Biorthogonal系列小波标签则最低,在去除同名高相关特征后全体特征集的诊断效能显著提高(P=0.004)。结论:建议选择阶数差异大的小波以降低影像组学特征的数据冗余度。为提高标签的诊断效能,有必要去除高相关特征。  相似文献   

20.
目的鉴定血小板反应素(thrombospondin,THBS)蛋白家族,作为潜在分子标志物用于胃癌早期诊断和预后判断的价值。方法作者前期基于20例胃癌基因芯片数据,利用优化的生物信息学分析方法建立了一组以中国人临床病理资料为基础的胃癌差异基因表达谱。通过系统的表达谱数据分析发现,THBS家族在进展期胃癌组织中发生表达水平上调。为了验证THBS家族在进展期胃癌中的差异表达水平,采用实时荧光定量聚合酶链反应(real time fluorescence quan-titative polymerase chain reaction,real-time PCR)及免疫组织化学染色方法检测了85例胃癌测试样本中候选分子标志物的表达水平。结果基于胃癌基因芯片数据,比较分析了20例进展期胃癌与癌旁形态学正常组织的差异表达基因,鉴定了1519个差异表达基因。其中,THBS家族中的4个成员THBS 1,THBS 2,THBS 3和THBS 4均在胃癌组织中发生表达水平上调,上调倍数分别为4.887,6.242,3.194和9.384。其差异表达水平在85例测试样本中得到了验证。结论 THBS家族在进展期胃癌组织中高表达,具有识别胃癌生物学特性的潜能并可能用于临床胃癌早期诊断和预后判断。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号