摘 要: | 目的/意义 构建中医古籍医案命名实体语料库,提升通用领域命名实体识别模型在中医古籍医案领域的识别精度与适用性。方法/过程 制定中医古籍医案命名实体标注规范,并据此对2 384则新安医案进行人工标注。构建RoBERTa-BiLSTM-CRF中医古籍医案命名实体识别模型,利用RoBERTa预训练语言模型生成具有语义特征的字向量,利用BiLSTM-CRF模型学习序列全局语义特征并解码输出最佳标签序列。引入词典和规则特征,增强模型对实体边界和类别的感知能力。结果/结论 模型在所建立的新安医案命名实体语料库上展现了良好的识别效果。融合领域术语词典与规则特征后,模型的综合F1值提升至72.8%。
|