一种基于分类算法的网页信息提取方法 A Method of Web Information Extraction Based on Classification Algorithm期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于分类算法的网页信息提取方法

引用本文：	汪建伟,杨冬青,高军,王腾蛟. 一种基于分类算法的网页信息提取方法[J]. 中国药品标准, 2008, 0(3): 91-93

作者姓名：	汪建伟杨冬青高军王腾蛟

作者单位：	汪建伟（北京大学信息科学技术学院,北京,100871;军事交通学院,天津,300161）;杨冬青（北京大学信息科学技术学院,北京,100871）;高军（北京大学信息科学技术学院,北京,100871）;王腾蛟（北京大学信息科学技术学院,北京,100871）

摘要：	在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.
关键词：	信息提取属性向量 Wrapper 显示属性
A Method of Web Information Extraction Based on Classification Algorithm

WANG Jian-Wei,YANG Dong-Qing,CAO Jun,WANG Teng-Jiao. A Method of Web Information Extraction Based on Classification Algorithm[J]. , 2008, 0(3): 91-93

Authors:	WANG Jian-Wei YANG Dong-Qing CAO Jun WANG Teng-Jiao

Abstract:

Keywords:

	点击此处可从《中国药品标准》浏览原始摘要信息
	点击此处可从《中国药品标准》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏