摘要:
先说一下采集的原理吧。一内容:当我们采集内容的时候,可以发现内容页都是用的同一个模板,即样子一样,内容不一样。所以我们可以在html代码中找到显示内容的那个html代码的开始和结尾。如内容页html代码为:<p><b>这里是内容一</b></p>则所有内容页都是以<p><b>开始 以</b></p>结尾,它们中间的那一段是内容。我们提取的就是它们之前的那一段。它的规则设置在上图的 内容配置 这个tab里。二 网址: 内容页的内容我们已经找到规律了,可以抓取了。但内容页的网址从哪里来呢,那当然是列表页 阅读全文
posted @ 2013-05-14 20:21 曙光城邦 阅读(494) 评论(0) 推荐(0)
浙公网安备 33010602011771号