爬虫

通过已访问表来存放已被访问过的网址,多个线程爬网页时,当匹配论坛帖子的正则表达式找到后,删除已访问表的内容,重新爬论坛,要注意还在用旧的地址爬的线程不要把地址存到已访问表中

posted @ 2013-07-28 23:49  亘大  阅读(129)  评论(0)    收藏  举报