基于中文医药文本的实体识别和图谱构建期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于中文医药文本的实体识别和图谱构建

作者姓名：	杨晔裴雷侯凤贞

作者单位：	中国药科大学理学院,医药大数据与人工智能研究院,南京 211198,中国药科大学理学院,医药大数据与人工智能研究院,南京 211198,中国药科大学理学院,医药大数据与人工智能研究院,南京 211198

摘要：	知识图谱技术促进了新药研发的进展,但国内研究起点晚且领域知识多以文本形式存储,图谱重用率低。因此,本研究基于多源异构的医药文本,设计了以Bert-wwm-ext预训练模型为基础,并融合级联思想的中文命名实体识别模型,从而减少了传统单次分类的复杂度,进一步提高了文本识别的效率。实验结果显示,该模型在自建的训练语料上的F1分数达0.903,精确率达89.2%,召回率达91.5%。同时,将模型应用于公开数据集CCKS2019上,结果显示该模型能够更好地识别中文文本中的医疗实体。最后,利用此模型构建了一个中文医药知识图谱,图谱包含13 530个实体,10 939个属性,以及39 247个相关关系。本研究所提出的中文医药实体识别与图谱构建方法,有望助力研究者加快医药知识新发现,从而缩短新药研发进程。
关键词：	中文医药文本命名实体识别模型 Bert-wwm-ext预训练模型级联思想知识图谱
收稿时间：	2023-03-09
修稿时间：	2023-06-12

	点击此处可从《中国药科大学学报》浏览原始摘要信息
	点击此处可从《中国药科大学学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏