摘要: 一、采集文章总体思路: 1、正则抓取文章列表页,提取出所有文章的链接地址写到临时表 2、从数据库中读取出所有文章的链接并访问,然后正则匹配出文章的标题及内容写入文章表中。二、其中两个需要注意的地方: 1、采集防死: 因为在采集的过程中程序需要进行很多操作,如果一次全部读出,再加上网络的一些问题(比如网速慢,网络不稳定),程序在采集的过程中便可能会出现页面超时的情况,对此我想到采用一条一条读取录入的办法,即打开页面时每次只读取一条文章链接进行采集,然后跳转页面,这样的话便可以减轻程序运行的负担,同时增加了程序运行的流畅度,这样在一定程度上减少了页面超时的问题。 2、采集文章中图片: 在采集... 阅读全文
posted @ 2013-03-01 14:30 疾行的脚步 阅读(1084) 评论(2) 推荐(1)