摘要: 针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。
中图分类号:
李晨,朱世伟,赵燕清,于俊凤. 基于MapReduce的网络爬虫设计与实现[J]. 山东科学, 2015, 28(2): 101-107.
LI Chen, ZHU Shiwei, Zhao Yanqing,YU Junfeng . MapReduce based web crawler design and implementation[J]. SHANDONG SCIENCE, 2015, 28(2): 101-107.