首页 | 本学科首页   官方微博 | 高级检索  
     

面向中医临床现病史文本的命名实体抽取方法研究
作者姓名:袁玉虎  周雪忠  张润顺  李晓东
作者单位:北京交通大学计算机与信息技术学院 北京 100044,北京交通大学计算机与信息技术学院 北京 100044;中国中医科学院中医药数据中心 北京 100700,中国中医科学院广安门医院 北京 100053,湖北省中医院 武汉 430061
基金项目:国家中医药管理局2015年度国家中医临床研究基地业务建设第二批科研专项(JDZX2015171):肝病回顾性病例表型信息抽取方法与分析研究,负责人:周雪忠;国家中医药管理局2015年度国家中医临床研究基地业务建设第二批科研专项(JDZX2015170):慢性肝病病案资料数据审编方案设计、质量控制关键技术研究,负责人:张润顺;国家自然科学基金委青年科学基金项目(61105055):表型与基因型功能关联的数据整合和网络分析方法研究,负责人:周雪忠。
摘    要:目的:中医临床病历作为重要的临床数据,以文本的形式记录了医生和患者交互的整个过程。目前,在大数据的背景下,针对临床病历所涵盖的主体问题信息如现病史的分析利用相关研究仍有所欠缺。因此,本文针对中医临床病历中的现病史部分展开症状术语抽取方法研究,为临床病历的进一步使用奠定基础。方法:首先通过随机挑选与专家审核的方式获得了12367份现病史数据,按照疾病种类分成了两组实验,其中糖尿病组包含了4838份数据,脾胃病组7529份数据,以及合并后的混合组12367份数据。并整理出了一份涵盖22996个词的症状术语字典。然后选取滑动窗口特征、词的前后缀特征、词典特征等5种特征模板,使用CRFs 模型开展症状术语命名实体抽取实验。结果:在实验结果评价标准(准确率、召回率和F1 值)上的表现:在开放测试上的评价结果为(0.83、0.8、0.82)、(0.9、0.9、0.89)和(0.88、0.87、0.87);在十重交叉验证上的评价结果为(0.83、0.82、0.83)、(0.95、0.95、0.95)和(0.93、0.92、0.92)。结论:CRFs模型作为一种优秀的序列标注算法,适用于现病史文本的症状术语命名实体抽取任务。

关 键 词:中医临床病历 现病史 条件随机场 特征模板 命名实体抽取
收稿时间:2016-12-30
修稿时间:2017-01-03
点击此处可从《世界科学技术-中医药现代化》浏览原始摘要信息
点击此处可从《世界科学技术-中医药现代化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号