首页 | 本学科首页   官方微博 | 高级检索  
     

随机森林回归分析及在代谢调控关系研究中的应用
引用本文:李贞子,张涛,武晓岩,李康. 随机森林回归分析及在代谢调控关系研究中的应用[J]. 中国卫生统计, 2012, 29(2): 158-160,163
作者姓名:李贞子  张涛  武晓岩  李康
作者单位:哈尔滨医科大学卫生统计学教研室,150081
基金项目:国家自然科学基金资助(81172767)
摘    要:目的探讨随机森林回归处理非线性、具有交互作用数据的性能,并将其应用于高维代谢组学数据的代谢网络变量筛选。方法通过模拟试验验证随机森林回归在具有交互作用和非线性情况下回归分析的效果,同时应用于卵巢良恶性肿瘤鉴别的代谢组学数据分析。结果模拟实验结果显示:对于具有交互作用及其他非线性关系的模拟数据,随机森林回归模型的效果明显优于多元线性回归模型;卵巢癌代谢组学数据分析显示,使用随机森林回归分析能够获得更为理想的结果。结论随机森林回归作为一种非参数回归技术,在一定的样本含量下(如n100),能够在高维数据中有效地分析具有交互作用和非线性关系的数据。

关 键 词:随机森林  多元回归分析  代谢组学  代谢调控网络

Methodology of Regression by Random Forest and its Application on Metabolomics
Affiliation:Li Zhenzi,Zhang Tao,Wu Xiaoyan,et al.Department of Biostatistics,Haerbin Medical University(150001),Haerbin
Abstract:ObjectiveEvaluating the property of regression by random forest on analyzing data with non-linearity or interaction,and its application on the feature selection of metabolic network in high dimensional metabonomic data. MethodsValidating the ability of regression by random forest with simulated data with interaction or non-linearity and applying it on discriminating metabolomic data between benign and malignant ovarian cancer. ResultsSimulations showed that the regression by random forest was superior to the multiple linear regression on analyzing data with interaction or non-linear relation.The analysis on real metabolomics data indicated that the regression by random forest achieved better results. ConclusionRegression by random forest,a non-parametric regression technique,would effectively analyze the high dimensional data with interactions or non-linearity when the data with certain sample size(e.g,n>100 ).
Keywords:Random forest  Multiple regression analysis  Metabonomics  Metabolism regulation network
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号