首页 | 本学科首页   官方微博 | 高级检索  
     

基于XML的自动学习Web信息抽取
引用本文:冀高峰,汤庸,道炜,吴桂宾,黄帆,王鹏. 基于XML的自动学习Web信息抽取[J]. 中国药品标准, 2008, 0(3): 87-90
作者姓名:冀高峰  汤庸  道炜  吴桂宾  黄帆  王鹏
作者单位:冀高峰(中山大学计算机科学系,广州,510275);汤庸(中山大学计算机科学系,广州,510275);道炜(中山大学计算机科学系,广州,510275;广东开讯电信科技有限公司,广州,510620);吴桂宾(中山大学计算机科学系,广州,510275);黄帆(中山大学计算机科学系,广州,510275);王鹏(中山大学计算机科学系,广州,510275)
基金项目:国家自然科学基金 , 广东省自然科学基金 , 教育部跨世纪优秀人才培养计划
摘    要:因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息.信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题.通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上.而通过wleb信息抽取的自动化实现,可以提高信息获得的效率.信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识.本文分析了基于XML的web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取摸型,通过自动学习来获取信息抽取规则,实现Wleb信息的自动提取.

关 键 词:信息提取  半结构化  自动学习  规则库  XML

Auto-learning Web Information Extraction Based on XML
JI Gao-Feng,TANG Yong,DAO Wei,WU Gui-Bin,HUANG Fan,WANG Peng. Auto-learning Web Information Extraction Based on XML[J]. , 2008, 0(3): 87-90
Authors:JI Gao-Feng  TANG Yong  DAO Wei  WU Gui-Bin  HUANG Fan  WANG Peng
Abstract:
Keywords:
点击此处可从《中国药品标准》浏览原始摘要信息
点击此处可从《中国药品标准》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号