摘 要: | 目的:通过建立一种基于预训练模型及条件随机场(CRF)的神经网络,解决目前中医医案命名实体识别效率一般的问题。方法:人工标注所选中医医案的10类命名实体作为训练集和验证集,并构建基于BERT、RoBERTa、ALBERT及CRF的神经网络,以探究对于中医医案命名实体识别任务的最佳预训练模型及CRF对其贡献大小。结果:基于RoBERTa-CRF构建的神经网络在中医医案命名实体识别任务中的性能最优,其对命名实体识别的整体准确率为99.33%,精确率为98.24%,召回率为98.51%,F1分数为98.38%。结论:基于RoBERTa-CRF构建的神经网络能有效实现中医医案命名实体识别,解决其效率一般的问题,并且通过设置恰当的分层学习率,CRF能有效处理命名实体标签间的依赖关系,可为中医医案的高价值数据挖掘奠定的坚实基础。
|