HTML数据内容的抽取与集成 Data Extraction and Integration from HTML Documents期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

HTML数据内容的抽取与集成

引用本文：	欧建雄,张礼平.HTML数据内容的抽取与集成[J].医学教育探索,2003(6):613-616.

作者姓名：	欧建雄张礼平

作者单位：	华东理工大学计算机科学与工程系，华东理工大学计算机科学与工程系上海200237，上海200237

摘要：	在XML基础上，利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库，净化HTML文档，借助DOM生成树对HTML元素结构做进一步分析，最后通过XSL、XPATH等自动提取转换。
关键词：	XML HTML 数据抽取
Data Extraction and Integration from HTML Documents

Abstract:

Keywords:	XML HTML data extraction

	点击此处可从《医学教育探索》浏览原始摘要信息
	点击此处可从《医学教育探索》下载免费的PDF全文