排序方式: 共有27条查询结果,搜索用时 15 毫秒
1.
蛋白质序列特征表示和机器学习算法是影响蛋白质结构类预测效果好坏的两个重要方面.本研究基于k-字统计频率和k-片段位置分布两种特征提取方法,将分别提取到的氨基酸序列信息和物理化学性质信息同蛋白质二级结构信息进行融合,建立17维和57维的特征信息集,并尝试在Adaboost.M1算法中引入Multi-Agent多智能体融合的思想,提出了一种Ma-Ada多分类器融合算法.该算法作为蛋白质结构类的预测工具,充分挖掘了单分类器度量层信息以及各个单分类器之间的交互融合信息.实验结果表明,Ma-Ada算法在Z277、Z498、1189和D640四个蛋白质数据集的57维特征信息集上的分类率分别达到了91.3%、96.8%、85.3%和87.2%,在17维特征信息集上的分类率也分别达到了90.6%、95.8%、84.8%和88.3%.与其它蛋白质结构类预测方法的结果相比,本方法能够获得较好的分类率. 相似文献
2.
面对高维、小样本的基因微阵列数据,有效地提取特征基因成为一项艰巨的任务.在随机特征选择方法的基础上,引入“种子变量”及滚动的排名机制,提出一种基于职业网球选手排名(PTPR)的特征选择算法.用种子变量提高变量搜索过程的选择性,提高搜索效率,同时充分利用历史记录来动态更新种子变量,加快寻优速度.在公共数据库上的测试实验结果表明,PTPR在随机多次独立运行时得到平均50% ~ 80%的相同基因,而MichalDraminski的方法只能保持相同基因在10% ~50%左右;收敛性实验表明,PTPR的收敛速度更快且显著;而在5个数据集的独立测试集上的分类率实验表明,PTPR保持较高的分类率,如PTPR得到最高分类率大约为98%、90%、89%、95%、75%,而Michal Draminski方法的最高分类率为96%、89%、85%、95%、70%.同时,与其他典型方法相比,PTPR也得到了较高的分类率.总体上,PTPR算法具有搜索速度快、结果稳定的特点,而且在不同的分类器上都保持了较优的分类率. 相似文献
3.
4.
目的针对蛋白质质谱数据,采用一种新的基于特征选择的算法提取判别特征,提高癌症辅助诊断的准确率。方法将小波特征与递归零空间线性判别分析(LDA)特征选择算法相结合,首先对数据进行多分辨率的小波分解,提取样本细节特征;接着运用t-test进行筛选,初步降低数据的特征维数;然后递归调用零空间LDA算法,筛选出最具判别意义的蛋白位点;最后采用支持向量机(SVM)分类器估算算法性能。采用十折交叉验证进行测试。结果在公共数据卵巢癌OC-WCX2a上的分类率达到98.3%。在浙江省肿瘤医院提供的临床乳腺癌BC-WCX2a数据上分类率为91.45%,敏感性为97.2%。同时,该算法有效地降低了所选特征间的相关性。结论本算法可充分提取蛋白质质谱数据中的判别特征,从而更有利于癌症的辅助诊断。 相似文献
5.
运用近邻传播聚类分析进行SELDI-TOF蛋白质谱特征选择 总被引:3,自引:0,他引:3
针对如何有效分析高通量SELDI-TOF质谱数据以及筛选与肿瘤相关的蛋白质位点,提出一种基于近邻传播聚类分析的特征选择方法.首先利用t-test对SELDI数据进行初筛,然后利用近邻传播聚类分析以及零空间LDA对数据进行降维和去相关处理,最后采用SVM-RFE进行特征选择,筛选出与肿瘤判别相关的蛋白质位点.利用SVM、KNN、NB及J4.8等4个分类器,估算算法的分类性能.结果表明,在卵巢癌公共数据集OC-WCX2a和OC-WCX2b以及浙江省肿瘤医院乳腺癌数据集BC-WCX2a上显示该算法,在上述3个数据集中分类率分别达到96.43%、99.66%、90.88%,敏感性分别达到97.00%、100%、96.17%,特异性分别达到95.85%、99.08%、81.92%,并分别挑选出与肿瘤判别相关的10个蛋白位点.所提出的算法能够获得较好的分类率,有效提取出具有较好判别效果的蛋白质谱位点,有助于癌症的辅助诊断. 相似文献
6.
乳腺癌是威胁我国妇女身体健康最主要的恶性肿瘤之一,乳腺钼靶图像中肿块的自动检测是乳腺癌的计算机辅助诊断领域的研究热点。提出一种基于海岛冲刷模型的肿块检测新算法,通过模拟一个海水上涨并不断侵蚀大陆与海岛的迭代过程,逐步剥离乳房中的脂肪甚至腺体组织;通过模拟海岛居民防洪筑坝的行为,不断维护疑似肿块形态的完整性,从而最终达到对肿块的分离与检测。在整个检测流程中,使用了模糊神经网络技术对一些应变参数进行自适应调节。实验结果表明,与一些传统的检测方法相比,海岛冲刷模型对肿块尤其是一些隐匿性肿块拥有较高的检测精度,在每幅图像有3.85个假阳性时能获得94.31%的真阳性检出率。 相似文献
7.
乳腺癌病理报告是乳腺癌诊断和治疗的主要依据,在实际诊疗过程中可能存在临床病理信息缺失的问题。利用动态增强磁共振影像(DCE-MRI)病灶区域的影像特征,结合对应乳腺癌患者的临床病理信息,建立影像组学非负矩阵分解填充模型,以实现对缺失的乳腺癌分子分型和细胞角蛋白5/6(CK5/6)基因表达信息的填充。共采集139例乳腺癌患者的术前或化疗前DCE-MRI影像及临床信息,随机划分89例为训练集、50例为测试集。对DCE-MRI影像进行肿瘤的分割,从病灶区域提取统计、形态和纹理特征。采用交叉验证的支持向量机递归特征消除(SVM-RFECV)法进行特征选择,并通过基于并集的方法进一步筛选影像特征,结合乳腺癌临床病理信息,建立非负矩阵分解(NMF)填充模型和协同过滤(CF)填充模型,并计算AUC评价模型的填充性能。当临床病理信息缺失率不同时,NMF模型的AUC值均高于CF模型的值,最高AUC为0.772,在缺失率20%~40%之间,NMF的填充效果要显著优于CF方法的效果(P<0.05);当使用不同数量的影像特征时,NMF模型的AUC值均高于CF模型的值,最高AUC为0.780,且在使用140个影像特征时二者的差异具有统计学意义(P<0.05)。实验表明,DCE-MRI影像组学结合非负矩阵分解方法,可对缺失的分子分型和CK5/6临床指标进行有效填充。 相似文献
8.
探索相位同步和复杂网络方法在注意缺陷多动障碍(ADHD)脑网络机制研究中的应用, 选取135例ADHD患者和102例正常对照作为研究对象。以这237例被试的功能磁共振图像时间序列作为研究数据, 利用相位同步分析方法获得脑区间的连接关系, 并在此基础上构建脑网络。然后, 利用复杂网络的局部效率指标评估静息态脑功能, 并采用多元线性回归和方差分析等统计方法, 分析ADHD患者和正常对照在静息态下脑区的局部效率可能存在的差异。结果表明, ADHD患者与正常对照在年龄、性别、量表分值(注意力和自制力)、3种智商值(语言智商、操作智商和总智商)等方面均无统计学差异, 在诊断和头动参数上有显著差异(P<0.05, 校正后)。诊断方面发现, 11个局部效率正常对照组与ADHD组具有统计学差异的脑区(P<0.05), 其中主要的脑区为左侧尾状核(0.118±0.317 vs 278±0.433)、丘脑(0.345±0.425 vs 0.541±0.435)、颞横回(0.467±0.476 vs 0.654±0.444)和右侧背外侧额上回(0.536±0.401 vs 0.681±0.333)、额中回(0.505±0.377vs 0.641±0.331)、尾状核(0.144±0.329 vs 0.298±0.423)。在静息态下, ADHD患者和正常对照在左侧中央前回、尾状核、丘脑等脑区的局部效率差异可能与患者尾状核、丘脑等特定脑区的功能异常有关, 也可能与患者注意和执行有关的神经网络损伤有关。 相似文献
9.
联合动态增强磁共振成像(DCE-MRI)、T2加权成像(T2WI)以及弥散加权成像(DWI)的影像特征,建立基于多参数影像组学的预测模型,分别对乳腺癌分子分型、组织学分级和Ki-67表达进行预测。采集150例术前、化疗前的浸润性导管癌患者乳腺MRI数据,获取DCE-MRI、T2WI和DWI影像。分割各参数影像的病灶区域,并提取多参数影像特征。在训练集采用支持向量机递归特征消除(SVM-RFE)算法,获得影像组学最优特征子集并构建基于SVM的预测模型,在测试集中测试模型性能。采用概率平均法、概率投票法和概率模型优化法,分别将基于不同参数影像构建的预测模型进行融合,得到多参数影像联合预测结果,并计算ROC曲线下的面积(AUC)评估模型的分类性能。单参数影像模型预测LuminalA、LuminalB、HER2和Basal-like等4种分子分型的最佳AUC分别为0.6721、0.6940、0.6777和0.7086,多参数影像模型的预测结果提高到AUC分别为0.7995、0.7279、0.7375和0.7925。单参数影像模型预测分级的最佳AUC为0.7533,多参数影像模型的预测结果提高到0.8017。单参数影像模型预测Ki-67表达的最佳AUC为0.6647,多参数影像模型预测结果提高到0.7718。相比于单参数影像模型的预测结果,多参数影像模型的预测结果有所提升,且差异具有显著性(P<0.05)。实验结果表明,采用多参数磁共振影像(DCE-MRI、T2WI以及DWI)组学的联合,可以显著提高单一参数影像模型预测乳腺癌病理信息的性能,对乳腺癌的诊断和个性化治疗方案的选择具有重要意义。 相似文献
10.
目的基于微阵列数据,提出提取肿瘤诊断结果相关的基因标志物。方法混合滤波和缠绕方法,采用奇异值分解,以基因和肿瘤诊断结果的相关强度为主要标准,辨识基因标志物,利用基于信息增益的随机森林法对分类率做辅助修正。本方法在3个公共数据库上和常用分类器上做了测试。结果 MonteCarlo统计实验表明,对于Colon数据集,本文方法在NN,RF分类器上显著优于t-test方法;在Prostate数据集上,本文方法在NB的分类器上显著优于对手,在其他数据集和分类器上本方法优于对手但不显著;而在基因稳定度指标上,本方法普遍优于对手。结论提出1种可以定量的,基于可视化的分析基因和诊断结果相关性的方法,与经典方法相比,本文方法提取的基因不仅具有较强的分类性能和对不同分类算法的适应性,而且在总体上也具有较好的基因稳定度。 相似文献