代谢组学数据正态性对疾病分类准确性的影响 |
| |
引用本文: | 公晓云,申小涛,徐静,张涛,朱正江,薛付忠.代谢组学数据正态性对疾病分类准确性的影响[J].山东大学学报(医学版),2016(4):89-93. |
| |
作者姓名: | 公晓云 申小涛 徐静 张涛 朱正江 薛付忠 |
| |
作者单位: | 山东大学公共卫生学院生物统计学系;中国科学院上海有机化学研究所生物与化学交叉研究中心 |
| |
基金项目: | 山东省博士后创新项目(201302032) |
| |
摘 要: | 目的探讨在代谢组学数据中服从正态分布的变量个数逐步增加时统计分类方法分类准确率的变化趋势。方法首先模拟产生11组代谢数据,且数据中服从正态分布的变量逐渐增加,然后用传统的非机器学习统计方法Bayes判别、Fisher判别、偏最小二乘判别分析(PLS-DA)]和机器学习方法随机森林(RF)、支持向量机(SVM)]进行统计分析,比较分类准确率的变化;最后用两个实例分析对模拟结果的合理性进行评价。结果代谢组学数据正态性对Bayes判别、Fisher判别、PLS-DA的分析结果影响较大,随着数据中服从正态分布的变量个数增加,分类准确率增大,而对RF和SVM基本没有影响。结论传统的非机器学习方法在统计分析过程中对数据正态性有一定的要求,而机器学习类的方法对数据正态性基本没有要求,且分类准确率一直保持较高的稳定状态。
|
关 键 词: | 数据正态性 分类准确率 Bayes判别 Fisher判别 偏最小二乘判别分析 随机森林 支持向量机 |
本文献已被 CNKI 等数据库收录! |
|