HTML数据内容的抽取与集成 |
| |
引用本文: | 欧建雄,张礼平.HTML数据内容的抽取与集成[J].医学教育探索,2003(6):613-616. |
| |
作者姓名: | 欧建雄 张礼平 |
| |
作者单位: | 华东理工大学计算机科学与工程系,华东理工大学计算机科学与工程系 上海200237,上海200237 |
| |
摘 要: | 在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。
|
关 键 词: | XML HTML 数据抽取 |
Data Extraction and Integration from HTML Documents |
| |
Abstract: | |
| |
Keywords: | XML HTML data extraction |
|
| 点击此处可从《医学教育探索》浏览原始摘要信息 |
| 点击此处可从《医学教育探索》下载免费的PDF全文 |
|