摘要:
通过已访问表来存放已被访问过的网址,多个线程爬网页时,当匹配论坛帖子的正则表达式找到后,删除已访问表的内容,重新爬论坛,要注意还在用旧的地址爬的线程不要把地址存到已访问表中 阅读全文
posted @ 2013-07-28 23:49
亘大
阅读(129)
评论(0)
推荐(0)
摘要:
经常使用info_visited表中visited_url字段的查询,考虑建索引 CREATE INDEX visited_Url ON mydb.info_visited(visited_url ); 阅读全文
posted @ 2013-07-28 21:41
亘大
阅读(99)
评论(0)
推荐(0)

浙公网安备 33010602011771号