共查询到18条相似文献,搜索用时 468 毫秒
1.
基于信息熵的决策树在慢性胃炎中医辨证中的应用 总被引:9,自引:1,他引:8
目的:探讨基于信息熵的决策树在慢性胃炎中医辨证分型中的应用.方法:采用bootstrap方法对406例样本进行扩增以满足数据挖掘对样本量的要求,采用基于信息熵的决策树C4.5算法建立中医辨证模型.结果:决策树C4.5算法筛选出对中医辨证分型有意义的26个因素并对其重要性进行排序;产生清楚易懂可用于分类的决策规则;建立辨证模型,模型分类符合率为:训练集83.60%,验证集80.67%,测试集81.25%;模型区分各类证型的灵敏度和特异度也较高.结论:决策树C4.5算法建立的模型效果较好,可应用于慢性胃炎中医证型的鉴别诊断. 相似文献
2.
3.
中医证候研究中的分类算法方法学研究 总被引:1,自引:1,他引:0
中医证的研究一直是中医药现代化研究的关键之一,其核心是证候分类和诊断标准的研究,数据挖掘中的分类算法已经大量应用于中医证候的分类研究。本文评述了数据挖掘中分类算法在中医证候研究中的应用,对其中主要算法的特点、适用条件和范围进行综合分析,认为应该根据不同的研究目的,选择适当的分类算法。粗糙集和聚类分析不需要先验知识,适合进行探索性的研究;模糊集理论、神经网络和决策树需要先验知识,适合应用于分类目标比较明确的证候诊断标准研究;模糊集理论更适合与其他分类算法结合应用,产生模糊聚类、模糊神经网络、模糊粗糙集和模糊决策树等更适合中医证候分类研究的算法。在具体的辨证分类研究中,我们需要根据所研究的疾病和证型分类特点选择合适的分类算法及其组合,同时建议应该在集成多学科理论与技术的基础上进行创新,建立符合中医证候特点的分类算法。 相似文献
4.
目的 通过对比评估5个模型的性能,优选证候要素"气虚"的辅助诊断模型.方法 从前期构建的证候要素-症状数据表中筛选与"气虚"有关的症状后,依据特征筛选出排序前15的症状.按照7∶3划分训练集和测试集,并进行重新采样.分别以最佳参数构建5个机器学习模型(CART决策树、随机森林、K近邻、BP神经网络和支持向量机),以ROC曲线下面积(AUC)值、敏感度和特异度作为模型评价指标.结果 15个关键症状包括疲乏,舌淡,神疲,脉弱,气短,自汗,食欲不振,脉细弱,懒言,苔白,便溏,苔薄,心悸,头晕,脉虚.基于随机森林算法构建模型的分类效果最好,AUC值达到0.923.结论 在5个模型中,随机森林算法更加适用于构建证候要素"气虚"的辅助诊断模型. 相似文献
5.
基于决策树方法的慢性乙型肝炎中医证候分类 总被引:1,自引:0,他引:1
目的:探索与慢性乙型肝炎典型证候相关的中医症状、体征及西医理化指标的组合。方法:以555例肝胆湿热证与肝郁脾虚证的慢性乙型肝炎患者的证候学调查信息和理化指标为研究对象,采用特征属性筛选与C5.0决策树算法等数据挖掘技术,构建慢性乙型肝炎肝胆湿热证与肝郁脾虚证的信息分类模型。结果:通过建立肝胆湿热证与肝郁脾虚证的信息分类模型,筛选出了与肝胆湿热和肝郁脾虚分类相关的7项重要属性及8条分类规则.并获得了96.94%的分类准确率。结论:与其他分类方法相比,基于C5.0决策树算法与特征属性筛选的慢性乙型肝炎中医证候分类方法较为理想,可行性较好。 相似文献
6.
目的:构建冠心病辨证模型,解决兼夹证诊断问题。方法:对收集的1315条冠心病医案进行规范化处理,并在规范数据集上运用多标记近邻算法ML-KNN构建冠心病辨证模型,采用十折交叉验证的方法对模型进行训练和测试,并用经典多标记算法评价指标对模型结果进行评价。结果:模型平均汉明损失为5.47%,1-错误率为2.13%,覆盖率为12.33%,排序损失为1.56%,平均精度为93.55%。结论:利用ML-KNN算法,从临床数据构建冠心病辨证模型,能够较好地模拟中医专家经验。 相似文献
7.
ID3算法是解决数据挖掘分类问题的一个非常重要的方法。本项实验对经过预处理后的100例慢性胃炎的中医辨证数据病例采用ID3算法进行分类,建立中医慢性胃炎辨证分类决策树,并提取决策树中蕴含的知识规则。挖掘出的分类规则基本符合中医胃炎的辨证规律以及名老中医诊治胃炎的诊疗经验。 相似文献
8.
目的:利用中医专家对住院患者的诊治记录,以及对患者证候是否属于"火毒"的判定,提取"火毒"的诊断规律。方法:首先对诊治记录进行数字化处理,之后使用基于信息学的决策树方法对繁杂的诊断数据逐步分类,进行辨证知识的获取。结果:"火毒"与血压骤变和热势不解有直接关系。结论:利用决策树的技术与方法进行中医"火毒"的数据分析研究,能为中医证候的客观化和现代化提供有力的支撑,同时为从中医和中西医结合角度治疗中风病提供借鉴。 相似文献
9.
目的 基于机器学习方法中的随机森林和决策树模型,实现在医疗与健康应用场景下的恶意流量检测。方法 以CICIDS2017样本集作为模型的训练集与验证集,对将该样本集通过Python预处理后的共1708979条数据进行模型训练。预处理后的样本集中训练集占比80%(1367183条),验证集占比20%(341795条),在sklearn中进行随机森林和决策树模型参数调整训练,再将在医疗与健康应用场景下捕获到的500条网络流量作为测试集进行模型泛化能力评估。结果 由决策树和随机森林混淆矩阵图可知,决策树模型对于慢速拒绝服务攻击以及跨站脚本攻击的预测准确率为95%,尤其是决策树模型对慢速拒绝服务攻击进行预测时,会将其与跨站脚本攻击混淆。随机森林模型对于慢速拒绝服务攻击预测准确率为99%,能够正确预测大多数慢速拒绝服务攻击。随机森林模型在医疗与健康应用场景下整体表现良好。结论 两种模型对于在医疗与健康应用场景下的恶意流量检测准确率效果较好,但传统的决策树模型准确率低于随机森林模型。随机森林模型更适合在医疗健康场景下的恶意流量检测,可为医疗健康应用场景中的网络安全研究提供参考。 相似文献
10.
11.
12.
目的 针对基于AI技术的类风湿关节炎(RA)中医证候多标签分类中存在标签关联性差、泛化性能低等问题,提出构建一种集成神经网络模型来实现RA中医证候分类,并探究其中的特征重要性和风险因素,为RA的诊断和治疗提供参考。方法 本文提出一种集成神经网络模型实现RA中医证候分类。该模型采用一种基于多层神经网络的基分类器提取临床RA多标签样本的深层特征,增强RA特征区分度,根据协方差理论衡量标签相关性,调节分类器链的输入空间,减少RA错误信息传播和冗余度,采用集成学习方法减小分类器链中不合理标签序列对RA特征分类的影响。结果 该模型在10折交叉验证性能参数中表现出优秀的性能,其中汉明损失、1-错误率、准确率和F1值分别为0.0036、0.0248、97.52%、99.18%。与其他常用多标签分类器相比,该模型的性能更为优秀具有更好的分类性能。此外,本文分析了RA中医证候特征重要性,并挖掘了潜在的风险因素。结论 基于集成神经网络模型的RA中医证候分类器具有较高的分类精度和效率,对于RA的临床诊断和治疗具有重要参考价值。 相似文献
13.
目的 评价支持向量机(SVM)、随机森林(RF)、极限梯度提升(XGBoost)3种机器学习算法与Logistic回归在重症缺血性脑卒中30天死亡结局的预测效果。方法 使用2008年至2019年MIMIC-IV数据库中符合纳排标准的2358例重症缺血性脑卒中患者资料,分别用SVM、随机森林、XGBoost3种机器学习算法与Logistic回归结合合成少数类过采样(SMOTE)技术建立早期死亡预测模型,并使用通过受试者工作特征曲线下面积(AUC)、准确度、F1-score、布里尔分数等指标评价预测效果。结果 SVM、随机森林、XGBoost与Logistic回归模型在原始类不平衡数据死亡预测中AUC值分别为0.78、0.81、0.84、0.83。应用SMOTE合成数据集后,SVM、随机森林、XGBoost与Logistic回归模型的AUC值分别为0.72、0.84、0.83、0.83。除SVM 外,机器学习算法与Logistic回归之间有相似的预测能力,但准确率、布里尔分数等优于Logistic回归,综合分类性能更优。结论 机器学习算法在重症缺血性脑卒中早期死亡预测中性能较传统方法更优,在解决重症患者预后预测研究问题中具有优势。 相似文献
14.
15.
16.
Figueroa RL Zeng-Treitler Q Ngo LH Goryachev S Wiechmann EP 《J Am Med Inform Assoc》2012,19(5):809-816
Objective
This study explores active learning algorithms as a way to reduce the requirements for large training sets in medical text classification tasks.Design
Three existing active learning algorithms (distance-based (DIST), diversity-based (DIV), and a combination of both (CMB)) were used to classify text from five datasets. The performance of these algorithms was compared to that of passive learning on the five datasets. We then conducted a novel investigation of the interaction between dataset characteristics and the performance results.Measurements
Classification accuracy and area under receiver operating characteristics (ROC) curves for each algorithm at different sample sizes were generated. The performance of active learning algorithms was compared with that of passive learning using a weighted mean of paired differences. To determine why the performance varies on different datasets, we measured the diversity and uncertainty of each dataset using relative entropy and correlated the results with the performance differences.Results
The DIST and CMB algorithms performed better than passive learning. With a statistical significance level set at 0.05, DIST outperformed passive learning in all five datasets, while CMB was found to be better than passive learning in four datasets. We found strong correlations between the dataset diversity and the DIV performance, as well as the dataset uncertainty and the performance of the DIST algorithm.Conclusion
For medical text classification, appropriate active learning algorithms can yield performance comparable to that of passive learning with considerably smaller training sets. In particular, our results suggest that DIV performs better on data with higher diversity and DIST on data with lower uncertainty. 相似文献17.
近年来,随着信号处理和机器学习技术的快速发展,基于脑电信号的情感识别越来越受到重视。特征提取是情感识别过程中的关键一步。本文提出了改进的局域判别基(Improved Local Discriminant Bases,ILDB)算法,提取信号局域判别基各子空间的能量和系数均值特征构成特征向量,利用SVM分类器进行分类,通过对特征向量类可分性及分类正确率的评估,表明ILDB算法提取的特征具有可分性且分类正确率较高。ILDB算法的通道最高平均分类正确率达到88%,通道最高平均分类正确率比LDB算法提高4.4%和7.2%,所有通道平均分类正确率比LDB算法提高10.1%和9.8%。 相似文献
18.