首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

2.
针对二值文本分类算法中的特征选择问题,本文提出了基于贝叶斯推理的评估函数算法来替代常用的、以IG或MI为评估函数的算法;同时,提出了以评估函数值的累计贡献率表示置信度,并以此确定特征选择维度的可量化的方法.对比实验显示,本文提出的新方法具有简便易行、高效实用的优点,此算法不仅对文本分类问题,对其它各类二值分类问题中的特征选择方法研究也都具有很好的参考、借鉴价值.  相似文献   

3.
通过引入标识特征集,把信息系统分解为独立的信息子系统.各个信息子系统逐一转变为类扩张矩阵和浓缩类扩张矩阵.以每个类扩张矩阵的统计信息为启发式信息,逐步完成信息子系统的特征选取和整合,最终形成整个信息系统的特征选取.这种特征选取方法具有高效和较优的特点.  相似文献   

4.
中文文本分类是中文信息检索和Web挖掘等领域的研究热点.现有的一些分类方法在特征选择阶段存在不足,忽略了隐含的子类信息.本文提出了一种提升隐含子类的关键词权值的方法,从而可以发现有价值的子类信息,进而使用粗糙集构建分类器.实验结果表明这种方法在不增加待约简词汇数量的情况下有效地提高了文本分类的查全率.  相似文献   

5.
在多标记学习中,一个示例可以有多个概念标记.学习系统的目标是通过对由多标记样本组成的训练集进行学习,以尽可能正确地预测未知样本所对应的概念标记集.k近邻算法已被应用到多标记学习中,该算法将测试示例转化为多维向量,根据其k个近邻样本的标记向量来确定该测试示例的标记向量.传统的k近邻算法是基于向量的空间距离来选取近邻,而在自然语言处理中,文本间的相似度常用文本向量的夹角来表示,所以本文将文本向量间的夹角关系作为选取k近邻的标准并结合k近邻算法提出了一种多标记文本学习算法.实验表明,该算法在文档分类的准确率上体现出较好的性能.  相似文献   

6.
构造虚拟样本能够为机器学习中的训练集融入先验知识,从而改善标注瓶颈问题.提出了一种本体驱动的文本虚拟样本构造方法.在确保类别不变性的前提下,该方法依据领域相关本体所明晰表达的领域知识,基于本体树的点、边、子树,从同义、父子、语义同构的多个词义关系角度实现了文本虚拟样本的构造.初步实验表明,该方法与原分类及类似方法相比具有更好的分类精度和推广能力.  相似文献   

7.
同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响.为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法.该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合.实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度.  相似文献   

8.
本文利用“逐步组合法”在TRS-80微型电子计算机上对22种氨基酸的纸层析溶剂系统的最佳组合作出了成功的选取,共选出三组最佳溶剂系统组合,它们的系统号码分别为:7,4,2,1;7,9,4,2;21,17,4,2,其中每一组均能在任意两供试药物的Rf×100的差值大于或等于10的情况下达到该22种氨基酸的完全分离。本文也用“数值分类—信息量选取法”选取系统最佳组合,但未能获得成功的结果。  相似文献   

9.
本文利用“逐步组合法”在TRS-80微型电子计算机上对22种氨基酸的纸层析溶剂系统的最佳组合作出了成功的选取,共选出三组最佳溶剂系统组合,它们的系统号码分别为:7,4,2,1;7,9,4,2;21,17,4,2,其中每一组均能在任意两供试药物的Rf×100的差值大于或等于10的情况下达到该22种氨基酸的完全分离。本文也用“数值分类—信息量选取法”选取系统最佳组合,但未能获得成功的结果。  相似文献   

10.
本文提出了一种基于朴素贝叶斯和遗传算法的两类文本分类方法,该方法将朴素贝叶斯分类器变换为在二维空间中的一条分割线,在分割线临近的文本分类不可靠区间内,利用遗传算法搜索最优文本分割线,从而使分类器达到最佳性能.在由12600篇文本构成的中文语料数据集上的实验表明,该方法具有较高的分类性能和效率,查准率、查全率和F1值分别达到97.98%,91.05%和94.39%.  相似文献   

11.
本文以四川南部地区南宋墓葬石刻艺术为切入点,提出石刻图像特征提取的具体方法,并通过仿真试验证明了该方法的有效性,最后指出了进一步的研究方向.  相似文献   

12.
根据人体手指静脉图像的特点,提出了一种基于降维思想的手指静脉特征提取方法,即搜索二维灰度图像中的静脉在一维灰度曲线上形成的谷形区域来实现静脉特征的提取.为了对手指静脉特征的充分提取,在进行特征提取前,采用了高频强调滤波对图像进行增强处理.实验结果表明:该方法思想独特、简单易行,对手指静脉的特征提取达到满意的效果.  相似文献   

13.
《中国药房》2017,(12):1670-1673
目的:提取牛膝和川牛膝药材的特征,并建立其图像识别方法。方法:采用MATLAB软件编程拼接牛膝和川牛膝药材的横切面显微图像,提取颜色、不变矩、纹理和横切面维管束组织特征;将数据整理成数据矩阵,通过Zscore函数对数据矩阵进行标准化,通过Princomp函数进行主成分分析;采用BP神经网络识别模式。结果:药材样品显微图像拼接处的组织细节保持完整;测得每组药材样品图像的27个特征参数,经主成分分析,选取11个主成分参数建立BP神经网络,两种近缘药材样本(n=50)的BP神经网络平均识别率为100%。结论:该方法可用于中药材显微图像自动拼接,及牛膝和川牛膝药材的图像识别。  相似文献   

14.
传统的网格服务匹配一般是基于关键字匹配,这种匹配方法缺乏语义信息,灵活性差,查全率低.本文提出了一种新的基于本体的网格服务匹配方法,该方法使用本体语言OWL-S来描述网格服务,充分考虑了服务的语义信息,同时利用OWL推理机对网格服务进行服务分层,以提高服务匹配的效率.实验结果表明,与其他网格服务匹配方法相比,本文所提出的匹配方法具有较高的查全率和查准率及较短的服务匹配时间等优点.  相似文献   

15.
16.
本文以Ontology技术为基点,结合Web服务技术的优点,设计了允许最终用户编程的数字博物馆通用建设平台,构建了文博业务领域本体和Web服务本体来支撑用户文博业务需求与Web服务间关联匹配.避免了传统数字博物馆建设中的重复开发及耗资大、周期长等缺点,并为其它领域通用建设平台的构建提供了参考.  相似文献   

17.
分析表明,KMSE模型准则中正则项的使用相当于引入了一个与核矩阵特征值直接相关的项以度量模型的泛化性能.根据矩阵特征值知识,可知核主分量分析实际上为KMSE模型应用过程中的一个中间步骤.此时,KMSE的作用表现为将样本在特征空间中的主分量映射为指示其类别的计算输出值.KMSE模型可看作是在特征空间的主分量分析基础上进一步实施特征变换的过程.本文全面阐述了KMSE模型与KFDA,LS-SVM,核主分量分析以及Bayesian判别函数间的理论关系.此外,通过分类实验测试了KMSE、核主分量分析与本文方法的性能.  相似文献   

18.
在大容量档案图像数据库中,不仅单页档案图像内部存在数据冗余,而且档案图像页之间存在大量集合冗余.本文提出了基于模板的压缩新方法,通过定义相似图像集合的模板,充分利用图像数据的先验知识,对档案图像的内容进行分析和理解,从图像内和图像间以二维模式压缩图像数据.实验表明,该方法能够大幅提高压缩性能.  相似文献   

19.
数字博物馆是建立以存储、管理和展示文物为目的的信息系统,以往的大都是面向可移动文物的.本文研究基于地理本体的数据表示模型,基于本体的方法可以为不可移动文物添加丰富的语义信息,而GIS可以为不可移动文物提供地理信息上的支持,结合两者,将可以构建面向不可移动文物的信息参考模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号