首页 | 本学科首页   官方微博 | 高级检索  
     

基于SentencePiece的中医学分词模型建模研究
引用本文:刘双巧,周璐,李彩艳,袁慧敏,张异卓,李昱达,刘锦钢,郑丰杰,孙燕,李宇航. 基于SentencePiece的中医学分词模型建模研究[J]. 世界中医药, 2021, 16(6)
作者姓名:刘双巧  周璐  李彩艳  袁慧敏  张异卓  李昱达  刘锦钢  郑丰杰  孙燕  李宇航
作者单位:北京中医药大学中医学院,北京,100029
基金项目:国家重点研发计划项目(2017YFC1700303,2017YFC1700300)
摘    要:目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。

关 键 词:分词  中文分词  分词模型  无监督学习  无监督分词  SentencePiece
收稿时间:2020-07-07

Research on Modeling of Traditional Chinese Medicine Word Segmentation Model Based on SentencePiece
LIU Shuangqiao,ZHOU Lu,LI Caiyan,YUAN Huimin,ZHANG Yizhuo,LI Yud,LIU Jingang,ZHENG Fengjie,SUN Yan,LI Yuhang. Research on Modeling of Traditional Chinese Medicine Word Segmentation Model Based on SentencePiece[J]. World Chinese Medicine, 2021, 16(6)
Authors:LIU Shuangqiao  ZHOU Lu  LI Caiyan  YUAN Huimin  ZHANG Yizhuo  LI Yud  LIU Jingang  ZHENG Fengjie  SUN Yan  LI Yuhang
Abstract:
Keywords:Word segmentation   Chinese word segmentation   Word segmentation model   Unsupervised learning   Unsupervised word segmentation   Sentence piece
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《世界中医药》浏览原始摘要信息
点击此处可从《世界中医药》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号