摘要: 通过已访问表来存放已被访问过的网址,多个线程爬网页时,当匹配论坛帖子的正则表达式找到后,删除已访问表的内容,重新爬论坛,要注意还在用旧的地址爬的线程不要把地址存到已访问表中 阅读全文
posted @ 2013-07-28 23:49 亘大 阅读(129) 评论(0) 推荐(0)
摘要: 经常使用info_visited表中visited_url字段的查询,考虑建索引 CREATE INDEX visited_Url ON mydb.info_visited(visited_url ); 阅读全文
posted @ 2013-07-28 21:41 亘大 阅读(99) 评论(0) 推荐(0)