共查询到17条相似文献,搜索用时 171 毫秒
1.
为解决日益增长的数据体量与实际作业效率和成本的矛盾,用科学的标注体系对患者安全事件语料进行标注,设计了一种基于深度学习的BERT-BiLSTM-CRF模型,结合中文文本语料的语义特征和字符特征对其进行命名实体识别,最终实验F1值为91.49%,相较于BiLSTM-CRF模型和IDCNN-CRF模型,实体的识别性能分别提升了7.33%和8.30%,验证了该模型的有效性。 相似文献
2.
3.
针对中文医疗文献中的中文词边界模糊、分词歧义导致传统深度学习方法难以获取词汇语义信息的问题,提出了一种融合嵌入字词特征的中文医疗命名实体识别模型。首先,针对词向量缺失边界特征的问题,将词向量与词性、词边界特征拼接融合,结合注意力机制捕获字符间潜在的依赖权重等特征和增强词汇向量;其次,将通过BERT模型获得的字符向量与增强词汇向量拼接融合作为嵌入的基础上,利用BiLSTM模型提取上下文语义信息特征;最后通过CRF模型进行序列解码。利用瑞金医院标准化代谢性疾病管理中心(MMC)的糖尿病标注数据集对融合嵌入字词特征的中文医疗命名实体识别模型进行实验,获得了较好的结果。 相似文献
4.
知识图谱技术促进了新药研发的进展,但国内研究起点晚且领域知识多以文本形式存储,图谱重用率低。因此,本研究基于多源异构的医药文本,设计了以Bert-wwm-ext预训练模型为基础,并融合级联思想的中文命名实体识别模型,从而减少了传统单次分类的复杂度,进一步提高了文本识别的效率。实验结果显示,该模型在自建的训练语料上的F1分数达0.903,精确率达89.2%,召回率达91.5%。同时,将模型应用于公开数据集CCKS2019上,结果显示该模型能够更好地识别中文文本中的医疗实体。最后,利用此模型构建了一个中文医药知识图谱,图谱包含13 530个实体,10 939个属性,以及39 247个相关关系。本研究所提出的中文医药实体识别与图谱构建方法,有望助力研究者加快医药知识新发现,从而缩短新药研发进程。 相似文献
5.
基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别 总被引:1,自引:0,他引:1
目的 提出一种基于Re-entity新分词方法的条件随机场(CRF)模型,并与双向长短记忆神经网络(BiLSTM)-CRF和Lattice-长短记忆神经网络(LSTM)进行比较。方法 比较了现有实体识别方法和模型后,针对2018年全国知识图谱与语义计算大会(CCKS2018)任务一“电子病历命名实体识别”,提出基于Re-entity的CRF、BiLSTM-CRF、Lattice-LSTM方法,并在不同语料库训练不同参数级别的字符向量集。分别将各方法引入神经网络模型中进行模型性能对比实验,最后分别基于句子级和篇级输入句长进行对比研究。结果 CRF模型在最优特征工程的结果下引入Re-entity方法后性能得到提高,句子级的Lattice-LSTM模型在该任务上取得了89.75%的严格F1-measure,优于CCKS2018任务一的最高结果(89.25%)。结论 基于Re-entity新分词方法的CRF模型可利用中文临床药物知识库有效提高电子病历中药物的识别率,Re-entity方法可改善数据预处理阶段分词导致的错误累加,Lattice结构可以更好地结合字符和词序列的潜在语义信息,同时句子级输入能有效提高神经网络模型的识别准确率。 相似文献
6.
7.
目的:构建中文生物医学实体及关系的自动识别标注平台,为中文生物医学语料标注和精准医学语料积累及知识服务等提供参考。方法:基于词典和CRF算法实现中文生物医学文本的自动实体识别,利用Python、JavaScript、CSS等编程语言和Query框架等相关工具构建中文生物医学实体自动标注平台。结果:构建了一个可以自动识别中文实体且具备上传、标注、审核文本并最终存储文本等功能的中文自动标注平台。该平台能高效、准确地识别文本内容,实现自动标注。结论:该平台具备了人工导入文献、标注、管理员审核结算的功能,可以为生物医学领域的研究者进行信息的数据挖掘、中文语料库的构建提供支持。 相似文献
8.
目的:构建基于中文医疗知识图谱的智能问答系统,使人们通过人机交互的方式就能完成简单的自我诊疗。方法:通过词性标注的方法获取用户提出问句中的医疗实体,再利用结合基于共享层的卷积神经网络(SH-CNN)与词频-逆文本频率(TF-IDF)算法的混合算法来计算出系统中与问句语义最接近的问题模板。最后根据获取问题模板的问句类型以及问句中的医疗实体构建cypher语句,从知识图谱中检索答案返回给用户。结果:该系统具有较强的问题解答能力,回答准确率达90.7%。结论:基于医疗知识图谱的问答系统为用户提供了快速准确的答案,可在一定程度上缓解医疗资源紧缺的矛盾,是医疗领域信息化的必然趋势。 相似文献
9.
在翻唱歌曲识别中,手工设计的特征虽然具有高可定制性,但其采用的浅层线性结构难以表现音乐的非线性长效结构,而采用基于深度学习的特征提取算法分析音乐的非线性动力学特性可以弥补这一缺陷。本文在研究两者互补性的基础上,提出了一种融合手工特征和深度特征的翻唱歌曲识别算法。该算法分别采用深度学习模型和手工设计算法提取歌曲的音级轮廓特征和旋律特征,然后将基于这两种特征的相似度组合成相似度向量输入到改进的SVM模型中,并将输入歌曲属于翻唱组合的概率作为融合相似度。为了验证算法性能,以两个公开的数据库(covers80,covers1212)作为测试对象进行测试,实验结果表明该算法比基于单个特征的算法和基于相似度融合的算法取得了更高的识别率和分类准确率。 相似文献
10.
目的:在缺乏相应先验知识和训练语料的情况下,实现对突发公共卫生事件社交媒体虚假新闻的早期检测。方法:融合虚假新闻文本的语义特征和统计特征,构建基于对抗神经网络的跨领域虚假新闻检测模型,并使用新浪微博数据集开展实验。结果:基于对抗神经网络的跨领域虚假新闻检测模型的检测效果较好,检测正确率达85.6%。结论:深度语义特征与传统统计特征相结合能够更好地辅助虚假新闻的识别,对抗神经网络能够在训练过程中提取更多虚假新闻的潜在通用特征,从而提升模型的领域迁移能力,更好地进行突发公共卫生事件虚假新闻的检测。 相似文献
11.
12.
13.
Jianbo Lei Buzhou Tang Xueqin Lu Kaihua Gao Min Jiang Hua Xu 《J Am Med Inform Assoc》2014,21(5):808-814
Objective
Named entity recognition (NER) is one of the fundamental tasks in natural language processing. In the medical domain, there have been a number of studies on NER in English clinical notes; however, very limited NER research has been carried out on clinical notes written in Chinese. The goal of this study was to systematically investigate features and machine learning algorithms for NER in Chinese clinical text.Materials and methods
We randomly selected 400 admission notes and 400 discharge summaries from Peking Union Medical College Hospital in China. For each note, four types of entity—clinical problems, procedures, laboratory test, and medications—were annotated according to a predefined guideline. Two-thirds of the 400 notes were used to train the NER systems and one-third for testing. We investigated the effects of different types of feature including bag-of-characters, word segmentation, part-of-speech, and section information, and different machine learning algorithms including conditional random fields (CRF), support vector machines (SVM), maximum entropy (ME), and structural SVM (SSVM) on the Chinese clinical NER task. All classifiers were trained on the training dataset and evaluated on the test set, and micro-averaged precision, recall, and F-measure were reported.Results
Our evaluation on the independent test set showed that most types of feature were beneficial to Chinese NER systems, although the improvements were limited. The system achieved the highest performance by combining word segmentation and section information, indicating that these two types of feature complement each other. When the same types of optimized feature were used, CRF and SSVM outperformed SVM and ME. More specifically, SSVM achieved the highest performance of the four algorithms, with F-measures of 93.51% and 90.01% for admission notes and discharge summaries, respectively. 相似文献14.
Objectives Medical knowledge extraction (MKE) plays a key role in natural language processing (NLP) research in electronic medical records (EMR), which are the important digital carriers for recording medical activities of patients. Named entity recognition (NER) and medical relation extraction (MRE) are two basic tasks of MKE. This study aims to improve the recognition accuracy of these two tasks by exploring deep learning methods.Methods This study discussed and built two application scenes of bidirectional long short-term memory combined conditional random field (BiLSTM-CRF) model for NER and MRE tasks. In the data preprocessing of both tasks, a GloVe word embedding model was used to vectorize words. In the NER task, a sequence labeling strategy was used to classify each word tag by the joint probability distribution through the CRF layer. In the MRE task, the medical entity relation category was predicted by transforming the classification problem of a single entity into a sequence classification problem and linking the feature combinations between entities also through the CRF layer.Results Through the validation on the I2B2 2010 public dataset, the BiLSTM-CRF models built in this study got much better results than the baseline methods in the two tasks, where the F1-measure was up to 0.88 in NER task and 0.78 in MRE task. Moreover, the model converged faster and avoided problems such as overfitting.Conclusion This study proved the good performance of deep learning on medical knowledge extraction. It also verified the feasibility of the BiLSTM-CRF model in different application scenarios, laying the foundation for the subsequent work in the EMR field. 相似文献
15.
目的 通过对中国、印度医学生图片再认记忆的跨文化研究,探讨文化背景对医学生再认记忆的影响.方法 应用新-旧再认的图片记忆测试程序,记录正确率和反应时.结果 中国医学生医学新图判断正确率[(83.21±8.95)%]高于印度医学生[(75.56±12.63)%,P<0.05],医学旧图反应时[(887.57±104.07)ms]长于印度医学生[(840.93±122.48)ms,P<0.05].文化差异和图片类型对再认记忆的正确率、反应时均影响显著,学习经验对反应时影响显著,对正确率影响不明显;除图片类型与学习经验对再认记忆的影响有交互作用外,各因素均无交互作用.结论 文化差异、专业背景和学习经验均影响再认记忆,不同文化背景的医学生在图片再认记忆过程中采取了不同策略. 相似文献
16.
提出一种基于智能信号分析的导诊框架,通过命名实体识别对患者描述的疾病进行自然语言查询注释,采用词嵌入法将用户疾病查询数据转换为矩阵表达式,利用人工智能导诊模型获得导诊结果。经验证该方法对于在线医疗导诊具有较高准确性。 相似文献