首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于分类算法的网页信息提取方法
引用本文:汪建伟,杨冬青,高军,王腾蛟. 一种基于分类算法的网页信息提取方法[J]. 中国药品标准, 2008, 0(3): 91-93
作者姓名:汪建伟  杨冬青  高军  王腾蛟
作者单位:汪建伟(北京大学信息科学技术学院,北京,100871;军事交通学院,天津,300161);杨冬青(北京大学信息科学技术学院,北京,100871);高军(北京大学信息科学技术学院,北京,100871);王腾蛟(北京大学信息科学技术学院,北京,100871)
摘    要:在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.

关 键 词:信息提取  属性向量  Wrapper  显示属性

A Method of Web Information Extraction Based on Classification Algorithm
WANG Jian-Wei,YANG Dong-Qing,CAO Jun,WANG Teng-Jiao. A Method of Web Information Extraction Based on Classification Algorithm[J]. , 2008, 0(3): 91-93
Authors:WANG Jian-Wei  YANG Dong-Qing  CAO Jun  WANG Teng-Jiao
Abstract:
Keywords:
点击此处可从《中国药品标准》浏览原始摘要信息
点击此处可从《中国药品标准》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号