摘 要: | 中医药语料数据在网络上分布广泛、检索困难、大量有效信息利用率低。为了能够灵活简便地收集和挖掘中医药类大量文本数据,有效利用中医药信息资源,提出了一种基于垂直化搜索技术进行爬取和存储中医药信息方法,设计并实现了一种海量中医药术语词典平台。系统使用Scrapy爬虫框架爬取有效信息存入数据库,引入本体的技术构造一个中医药领域本体,再把该领域本体中包含的知识单元应用到语料库中,将先前的数据库扩展成具有丰富语义信息的知识本体库,构建基于语义Web的中医药术语知识库词典系统,从而为与中医药相关领域的术语检索、养生信息的实时更新等提供服务。模块实现结果表明,该系统安全可靠、易维护、具有良好的可移植性和可扩展性。
|