首页 | 本学科首页   官方微博 | 高级检索  
检索        

HTML数据内容的抽取与集成
引用本文:欧建雄,张礼平.HTML数据内容的抽取与集成[J].医学教育探索,2003(6):613-616.
作者姓名:欧建雄  张礼平
作者单位:华东理工大学计算机科学与工程系,华东理工大学计算机科学与工程系 上海200237,上海200237
摘    要:在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。

关 键 词:XML  HTML  数据抽取

Data Extraction and Integration from HTML Documents
Abstract:
Keywords:XML  HTML  data extraction  
点击此处可从《医学教育探索》浏览原始摘要信息
点击此处可从《医学教育探索》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号