随机森林的变量捕获方法在高维数据变量筛选中的应用 |
| |
引用本文: | 宋欠欠,李轶群,侯艳,李康.随机森林的变量捕获方法在高维数据变量筛选中的应用[J].中国卫生统计,2015(1):49-53. |
| |
作者姓名: | 宋欠欠 李轶群 侯艳 李康 |
| |
作者单位: | 哈尔滨医科大学卫生统计学教研室;哈尔滨医科大学生物信息教研室 |
| |
基金项目: | 国家自然科学基金资助(81172767);高等学校博士学科专项基金(20122307110004) |
| |
摘 要: | 目的探讨随机森林(RF)的变量捕获方法在高维数据变量筛选中的应用。方法通过模拟实验和实际数据分析,对两种变量捕获(vh.md,vh.vimp)和逐步剔除方法(var SelRF)进行比较,并通过选入变量的数目、模型预测错误率(PE)和受试者工作特征曲线下面积(AUC)对其进行评价。结果模拟实验表明,在变量具有联合作用、交互作用和弱独立作用情况下,变量捕获方法均明显优于var SelRF方法和全变量VIMP排序方法;实际数据分析结果表明,变量捕获方法筛选变量结果稳定,并能够保证良好的预测效果。结论变量捕获方法适用于高维数据的变量筛选,具有实用价值。
|
关 键 词: | 随机森林 变量筛选 变量捕获 |
本文献已被 CNKI 等数据库收录! |
|