摘要: 最近用C写了个爬虫,纯属练习,离实用还相差甚远。下载源码:ISeeSpiderbloom.h实现布隆过滤器算法。对一条url拆分为domain和path两部分,bloomDomain函数判断domain是否出现过,bloomPath函数判断path是否出现过。如果domain未出现过,则要先进行DNS解析(解析之后把domain和ip对存入map),再下载网页;如果domain出现过,则不需要再进行DNS解析,此时如果path也出现过,则该url直接忽略;如果是新的url,需要放入queue。建立好socket connection后向连接写入http request,然后把sockfd放入e 阅读全文
posted @ 2012-02-14 19:32 张朝阳讲go语言 阅读(6214) 评论(7) 推荐(1)