[1]中国互联网络信息中心.中国互联网络发展状况统计报告[EB/OL]. [2014-12-02].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/P020140305346585959798.pdf.
[2] BOLDI P,CODENOTTI B,SANTINI M,et al.UbiCrawler:A scalable fully distributed web crawler[J].Software:Practice&Experience,2004,34(8):711-726.
[3] YI J, NIBLACK W. Sentiment mining in WebFountain[M]// Proceedings of the 21st International Conference on Data Engineering. Piscataway,NJ,US: IEEE, 2005: 1073-1083.
[4] HEYDON A, NAJORK M. Mercator: A scalable, extensible web crawler[J]. World Wide Web, 1999, 2(4): 219-229.
[5] 北京天网时代科技有限公司.天网搜索 [EB/OL] . [2014-12-02]. http://www.sowang.com/beidatianwang.htm.
[6] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters[J].Communications of the ACM, 2008,51(1):107-113.
[7] SHVACHKO K, KUANG H, RADIA S, et al. The hadoop distributed file system[M]//2010 IEEE 26th Symposium on Mass Storage Systems and Technologies . Piscataway,NJ,US: IEEE, 2010: 1-10.
[8] 杨丁苗. Web信息抽取在书签系统中的应用研究与实现[D].南京:南京理工大学,2014.
[9] 刘利. 大规模网页信息抽取技术研究[D].成都:西南交通大学,2013.
[10] 陈劲. 面向中文网页的信息抽取关键技术研究与实现[D].杭州:浙江大学,2013.
[11] 李湘东,霍亚勇,黄莉. 图书网页的自动识别及书目信息抽取研究[J]. 现代图书情报技术,2014(4):71-77. |