山东科学 ›› 2015, Vol. 28 ›› Issue (2): 101-107.doi: 10.3976/j.issn.1002-4026.2015.02.017

• 其他研究论文 • 上一篇    下一篇

基于MapReduce的网络爬虫设计与实现

李晨,朱世伟,赵燕清,于俊凤   

  1. 山东省科学院情报研究所,山东 济南 250014
  • 收稿日期:2015-01-21 出版日期:2015-04-20 发布日期:2015-04-20
  • 作者简介:李晨(1988-),男,研究实习员,硕士,研究方向为数据挖掘、大数据分析。Email:jncqlc@163.com
  • 基金资助:
    山东省科学院青年基金(2013QN036);山东省科技发展计划(2013GGX10127; 2014GGX101013)

MapReduce based web crawler design and implementation

LI Chen, ZHU Shi-wei, Zhao Yan-qing,YU Jun-feng   

  1. Information Institute,Shandong Academy of Sciences,Jinan 250014,China
  • Received:2015-01-21 Online:2015-04-20 Published:2015-04-20

摘要: 针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。

关键词: 网络爬虫, 信息抽取, 文本去重, Hadoop, MapReduce

Abstract: We design and implement a MapReduce based web crawler system for such issues as low efficiency and bad scalability of a single crawler system. It employs HDFS and HBase to store web information and extracts web information through a row block distribution function. It then measures similarity for acquired web information by Simhash algorithm and deduplication strategy of similarity analysis of URL and web information. Experimental results show that it has better performance and scalability, and increases average crawling speed by 4.8 times, as compared with single crawling system.

Key words: Hadoop, information extraction, text deduplication, MapReduce, web crawler

中图分类号: 

  • TP311.1

开放获取 本文遵循知识共享-署名-非商业性4.0国际许可协议(CC BY-NC 4.0),允许第三方对本刊发表的论文自由共享(即在任何媒介以任何形式复制、发行原文)、演绎(即修改、转换或以原文为基础进行创作),必须给出适当的署名,提供指向本文许可协议的链接,同时表明是否对原文作了修改,不得将本文用于商业目的。CC BY-NC 4.0许可协议详情请访问 https://creativecommons.org/licenses/by-nc/4.0