首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
文本挖掘是利用数据挖掘技术在大量的文本集合中发现隐含的知识的过程。近年来许多研究人员利用计算机技术对生物医学文献全文或摘要进行了分析,现综述各项研究中所采用的文本挖掘技术。文本挖掘的任务包括在大量文本中进行信息抽取、语词识别、发现知识间的关联等,还包括提高大分子序列同源查找的效率,进行细胞定位等复杂的目标。  相似文献   

2.
分析了用文本挖掘方法探测药物副作用的必要性及可行性,从挖掘流程、挖掘/提取方法、结果评价和现有工具软件4个方面总结了用文本挖掘技术提取药物副作用的研究现状及尚未解决的问题和未来发展趋势。  相似文献   

3.
目的 本研究基于文本挖掘与主题建模的方法对北京市属公立医院负面舆情进行分析。方法 收集北京市22家市属公立医院2021年1月1日至12月31日在主流网媒平台的全部负面舆情。采用Python 3.9进行文本挖掘并建立语料库,利用隐含狄利克雷分布(LDA)主题模型对语料进行聚类,并根据每个聚类的关键词解释聚类含义。结果 共收集语料3 083条,提取6个主题,根据关键词形成号源与资费相关问题、突发公共卫生事件相关问题、等待时间与服务可及性问题、服务态度与就诊流程体验问题、患者入院手术体验与预后问题等5类问题。结论 公立医院的负面舆情是反映社情民意的重要信息来源。通过对负面舆情的文本挖掘研究,可以有效发现管理漏洞,提出改进措施,从而提升医院舆情管理工作,改善医疗服务工作。  相似文献   

4.
研究了一种基于海量文本挖掘对新兴技术进行分析的方法,并以美国SBIR计划国防部项目数据为例对新兴技术进行实验分析。通过合理选定信息源、建立技术高频词库、新兴技术术语筛选、领域专家研判等环节生成新兴技术领域词簇,再结合应用场景分析建模,可支持从多维度分析评估新兴技术功效。对美国SBIR项目相关海量文本中重点实体的语句级共现关系进行挖掘分析,深度揭示了军事智能领域的新兴技术与战争类型、作战能力之间的量化关联。  相似文献   

5.
目的 探索鼻咽癌异常信号通路。方法 根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取与基因相关的文献并分析词的频率,再根据重复发生和共发生的过滤标准提取功能相关的词,最后根据词的发生频率对基因进行功能聚类。结果 基因表达谱的112个差异表达基因聚成16组功能类别:4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现。结论 鼻咽癌的发生发展可能由特殊的信号通路引起。  相似文献   

6.
为了解生物医学文本挖掘技术在基因组注释方面的基本应用,以Web of Science(WOS)数据库中收录的关于生物医学文本挖掘技术在基因组注释方面的基本应用的文献作为来源文献,利用书目共现分析软件提取文献中的高被引论文,形成来源文献——高被引文献词篇矩阵,利用聚类软件对高被引论文进行同被引聚类分析,最后得到生物医学文本挖掘技术在基因组注释方面的基本应用,主要包括权威工具的使用、文本挖掘工具和算法的开发、文本挖掘工具的检验。  相似文献   

7.
针对国外药物靶位研究的相关文献,使用BICOMB2.01软件、gCLUTO软件进行了高被引论文的同被引聚类分析,通过对各类高被引论文及其对应的重要来源文献的标题和摘要进行语义分析,发现该领域当前研究的主要热点包括文本挖掘在预测药物靶位研究中的总体趋势、理论基础、主要方法和主要资源4个方面。  相似文献   

8.
癌症基因组学科学计划的实施,推进了分子层面疾病诊断、疾病预防检测和靶向治疗等临床应用,积累了大规模的癌症基因组学数据,对癌症基因组数据进行有效挖掘和利用,成为该领域的研究重点。在高通量癌症基因组学数据挖掘的基础上,以美国国家癌症研究中心的癌症基因组数据为研究对象,利用文本挖掘技术对特异癌症基因加以注释和可视化展示,即从基因功能描述文本中识别疾病实体和药物实体,从临床应用的角度注释高通量数据挖掘结果,便于研究人员从高通量的数据和科学文献中发现疾病、药物及基因之间的关系。  相似文献   

9.
文本挖掘能从海量的中医药文献中发现知识以促进中医临床研究和中药研发。本文总结现有研究指出文本分类和信息抽取是中医药文献知识发现的关键技术,指出中医药文本分类、非关联知识发现和中医药文献信息抽取为三个主要研究方向,并论述了三个研究领域中需解决的关键问题和研究方向,最后展望文本挖掘在中医药学科的应用前景,指出非关联文献知识将成为中西医结合研究的热点。  相似文献   

10.
目的:应用cDNA芯片技术研究三氧化二砷对多发性骨髓瘤细胞株RPMI8226的作用。方法:采用包含4096个人类基因的cDNA表达谱芯片,检测三氧化二砷作用于RPMI8226细胞24h前后其基因表达的变化。结果:在mRNA水平上,273个基因的表达发生了明显改变,其中121个基因表达上调,152个基因表达下调。结论:三氧化二砷可引起RPMI8226细胞株一系列基因表达的改变。ZFYVE16、TXNIP及ALK1基因可能与RPMI8226细胞的分化与凋亡密切相关。  相似文献   

11.
文本挖掘在生物医学领域中的应用及其系统工具   总被引:4,自引:2,他引:2       下载免费PDF全文
系统介绍了生物医学文本挖掘的具体流程和文本挖掘技术在生物医学领域中的应用情况,并着重从自然语言处理和本体、命名实体识别、关系抽取、文本分类与聚类、共现分析、系统工具及评价、可视化等方面分别做了阐述.  相似文献   

12.
Objective Many tasks in natural language processing utilize lexical pattern-matching techniques, including information extraction (IE), negation identification, and syntactic parsing. However, it is generally difficult to derive patterns that achieve acceptable levels of recall while also remaining highly precise.Materials and Methods We present a multiple sequence alignment (MSA)-based technique that automatically generates patterns, thereby leveraging language usage to determine the context of words that influence a given target. MSAs capture the commonalities among word sequences and are able to reveal areas of linguistic stability and variation. In this way, MSAs provide a systemic approach to generating lexical patterns that are generalizable, which will both increase recall levels and maintain high levels of precision.Results The MSA-generated patterns exhibited consistent F1-, F.5-, and F2- scores compared to two baseline techniques for IE across four different tasks. Both baseline techniques performed well for some tasks and less well for others, but MSA was found to consistently perform at a high level for all four tasks.Discussion The performance of MSA on the four extraction tasks indicates the method’s versatility. The results show that the MSA-based patterns are able to handle the extraction of individual data elements as well as relations between two concepts without the need for large amounts of manual intervention.Conclusion We presented an MSA-based framework for generating lexical patterns that showed consistently high levels of both performance and recall over four different extraction tasks when compared to baseline methods.  相似文献   

13.
Objective Literature-based discovery (LBD) aims to identify “hidden knowledge” in the medical literature by: (1) analyzing documents to identify pairs of explicitly related concepts (terms), then (2) hypothesizing novel relations between pairs of unrelated concepts that are implicitly related via a shared concept to which both are explicitly related. Many LBD approaches use simple techniques to identify semantically weak relations between concepts, for example, document co-occurrence. These generate huge numbers of hypotheses, difficult for humans to assess. More complex techniques rely on linguistic analysis, for example, shallow parsing, to identify semantically stronger relations. Such approaches generate fewer hypotheses, but may miss hidden knowledge. The authors investigate this trade-off in detail, comparing techniques for identifying related concepts to discover which are most suitable for LBD.Materials and methods A generic LBD system that can utilize a range of relation types was developed. Experiments were carried out comparing a number of techniques for identifying relations. Two approaches were used for evaluation: replication of existing discoveries and the “time slicing” approach.1Results Previous LBD discoveries could be replicated using relations based either on document co-occurrence or linguistic analysis. Using relations based on linguistic analysis generated many fewer hypotheses, but a significantly greater proportion of them were candidates for hidden knowledge.Discussion and Conclusion The use of linguistic analysis-based relations improves accuracy of LBD without overly damaging coverage. LBD systems often generate huge numbers of hypotheses, which are infeasible to manually review. Improving their accuracy has the potential to make these systems significantly more usable.  相似文献   

14.
基于数据挖掘方法分析阎洪臣教授治疗不寐用药规律   总被引:2,自引:0,他引:2  
目的 基于中医传承辅助系统,分析阎洪臣教授治疗不寐用药规律.方法 收集并整理阎洪臣教授治疗不寐患者病历及处方,采用中医辅助传承系统中关联规则、聚类分析等数据挖掘方法研究阎洪臣教授治疗不寐辨证分型、用药频次及其药物组合规律,分析阎洪臣教授用药经验.结果 通过对整理的80例患者的230个处方分析,确定了阎洪臣教授治疗不寐的辨证分型、药物频次及其关联规则.结论 阎洪臣教授治疗不寐辨证准确,在辨证基础上灵活运用安神药,疗效确切.  相似文献   

15.
[目的] 利用数据挖掘技术探究中药治疗脂溢性皮炎(seborrheic dermatitis,SD)的用药规律,为SD的临床治疗提供参考。[方法] 以中国知网(China National Knowledge Internet,CNKI)、万方数据库、维普数据库收录的文献为资料来源,使用R 4.1、Cytoscape 3.9.1、SPSS Statistics 20.0等软件对符合纳入标准的中药复方进行频次统计、关联规则分析、系统聚类分析等。[结果] 总计纳入方剂129首,包含药物161味,药性以寒、温、平多见,药味以甘、苦、辛为主,归经多归肝、肺、胃经。高频中药前10位为生地黄、黄芩、牡丹皮、白鲜皮、薏苡仁、赤芍、石膏、茯苓、金银花、白术,功效类型主要为清热药和利水渗湿药;关联规则分析显示常用对药有桑白皮-黄芩、淡竹叶-生地黄、荆芥-生地黄、连翘-金银花;常用角药有白鲜皮-薏苡仁-牡丹皮、蝉蜕-牡丹皮-生地黄、赤芍-生地黄-牡丹皮、白鲜皮-薏苡仁-黄芩;常用药物组合为黄芩-牡丹皮-薏苡仁-白鲜皮。聚类分析发现,SD治疗药物分4类聚类效果较好。[结论] 中药论治SD以清热化湿、祛风解表、养血润燥为治疗大法,初步明确中药论治SD的用药规律,可为临床用药及新处方研发提供依据。  相似文献   

16.
目的 探讨小儿反复呼吸道感染中药内服复方配伍规律.方法 检索收集中国生物医学文献数据库、知网、维普、万方4个数据库中防治小儿反复呼吸道感染的中药内服复方文献,检索时间为2006年1月至2016年7月,将文献整理得到符合要求的中药内服复方进行术语规范化等处理,抽取信息,建立Excel表,应用开源软件包R i386 3.3.0对数据进行频数、关联规则分析及聚类分析.结果 筛选出311首方,208味中药进行分析,发现配伍频数较高的中药为白术、甘草、防风、黄芪、太子参、茯苓、陈皮等;强关联规则提示以黄芪、白术、防风等核心药物组成的玉屏风散加减为防治小儿反复呼吸道感染的基本方;聚类分析结果发现黄芪-龙骨-牡蛎、白术-茯苓-甘草-黄芪-党参等中药配伍.结论 通过对药物频数、强关联规则、药物聚类的分析,可以揭示小儿反复呼吸道感染防治组方的配伍规律,为临床优化处方、提高疗效提供参考依据.  相似文献   

17.
目的 利用文本挖掘技术探索西药、中成药治疗再生障碍性贫血的规律.方法 在中国生物医学文献数据库中收集治疗再生障碍性贫血的相关文献,建立Access数据库,运用SQL数据平台处理数据,并结合人工降噪,分析西药、中成药的用药规律.结果 司坦唑醇、环孢素A、抗胸腺细胞球蛋白、环磷酰胺、抗淋巴细胞球蛋白等为文献中出现的高频西药,复方皂矾丸、再障生血片等为文献中出现的高频中成药.结论 利用文本挖掘的方法,从文献报告频数方面呈现了西药、中成药治疗再生障碍性贫血的用药规律,尤其是西药、中成药联合应用还值得进一步研究.  相似文献   

18.
[目的] 基于古今医案云平台软件, 应用关联规则、聚类分析等数据挖掘方法分析和总结中药专利复方治疗胆结石的用药及配伍规律。[方法] 使用中国知网专利数据库检索治疗胆结石的中药复方, 排除单味药物、中药提取物、中西药物联用等情况, 对中药专利复方进行筛选处理并建立Excel数据表, 应用古今医案云平台软件(V2.2.1)对数据进行中药属性和频次统计、关联规则和聚类分析。[结果] 筛选治疗胆结石的复方274个, 用药以寒性、苦味为主, 归经以肝经为主, 功效以清热利湿退黄、疏肝理气为主。频次较高的中药为金钱草、郁金、柴胡、鸡内金、茵陈、大黄等; 关联规则提示治疗胆结石药物中海金沙-金钱草、鸡内金-金钱草、虎杖-金钱草、柴胡-金钱草、茵陈-金钱草的置信度较高; 聚类分析得到治疗胆结石药物5类; 核心药物网络由24味中药组成。[结论] 治疗胆结石的中药专利复方药物的功效以清热利湿、利胆退黄、疏肝理气、通腑泻下为主, 药物配伍以清热利湿、利胆退黄、疏肝理气为主, 体现了胆结石的治疗原则, 为胆结石的临床治疗和中药组方开发提供了参考依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号