首页 | 本学科首页   官方微博 | 高级检索  
     

基于SEER数据库利用机器学习方法分析乳腺癌的预后因素
引用本文:章鸣嬛,张璇,郭欣,陈瑛. 基于SEER数据库利用机器学习方法分析乳腺癌的预后因素[J]. 北京生物医学工程, 2019, 38(5): 486-491,497
作者姓名:章鸣嬛  张璇  郭欣  陈瑛
作者单位:上海杉达学院大数据分析与处理研究中心 上海201209;上海杉达学院大数据分析与处理研究中心 上海201209;上海杉达学院大数据分析与处理研究中心 上海201209;上海杉达学院大数据分析与处理研究中心 上海201209
基金项目:2016年上海市民办高校重点科研项目;2015 年 IBM 大学合作部联合研究项目
摘    要:目的以SEER数据库中1990—2014年间的乳腺癌数据为研究对象,利用机器学习方法,分析乳腺癌的预后因素,辅助医师对患者的预后进行有效评判。方法根据临床医师的建议,筛选了12个字段作为模型输入字段,以术后5年生存状况作为模型输出字段。首先利用单因素统计分析方法初步筛选预后因素,再分别利用logistic回归和决策树两种机器学习分类算法进行建模分析,藉此寻找影响乳腺癌5年预后的因素。采用十折交叉法组织样本数据,并利用过抽样和欠抽样技术进行样本的平衡处理;以灵敏度、特异度及ROC下的AUC等参数作为模型的评价指标。结果在12个模型输入字段中,肿瘤分期、肿瘤分级、肿瘤尺寸、雌激素水平、年龄分组、孕激素水平等因素对于乳腺肿瘤预后具有较大影响;在此两种模型下,模型测试集上的灵敏度和特异度均介于74.2%~78.2%之间,AUC均处于0.838~0.850之间。结论利用Logistic回归和决策树算法构建乳腺癌患者的优化预后模型,可辅助医师判断患者预后情况及治疗效果。

关 键 词:SEER数据库  乳腺癌  Logistic回归  决策树  预后因素

Prognostic factors of breast cancer with machine learning method based on SEER database
ZHANG Minghuan,ZHANG Xuan,GUO Xin,CHEN Ying. Prognostic factors of breast cancer with machine learning method based on SEER database[J]. Beijing Biomedical Engineering, 2019, 38(5): 486-491,497
Authors:ZHANG Minghuan  ZHANG Xuan  GUO Xin  CHEN Ying
Affiliation:(Research Center of Big Data Analyses and Process,Shanghai Sanda University,Shanghai,201209)
Abstract:ZHANG Minghuan;ZHANG Xuan;GUO Xin;CHEN Ying(Research Center of Big Data Analyses and Process,Shanghai Sanda University,Shanghai,201209)
Keywords:SEER database  breast cancer  logistic regression  decision tree  prognosis
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号