摘 要: | 目的为解决传统方法采集、存储和处理海量中医药数据的低效问题,探索数据管理的新策略。方法根据中医药数据的典型特征,设计基于Hadoop的分层管理架构,对串行数据挖掘算法进行MapReduce化改进;部署单节点服务器和分布式集群,采用8组不同规模的数据集,进行数据采集实验和串并行算法实验。结果数据传输时间在非分布式环境下通常超过3000 s,增幅较大,而在分布式集群下一般不超过300 s,增幅平缓;当数据规模超过一定范围后,与伪分布式和完全分布式下的并行算法比较,非分布式下串行算法的运行耗时急剧增加。结论与传统单节点系统相比,基于Hadoop的中医药数据管理平台采集、存储及处理海量数据的效率明显提高,尤其适用于大规模非结构化或半结构化的中医药数据。
|