我个人比较喜欢看小说了,下班后如果不写代码,一般都是在看小说了!对小说特别的钟爱!以前对于

连载的小说我都是花流量看,而且还没有阅读器带来的那种感觉好。而这段时间在公司做的事情和抓取网页有关(抓取网页初步工作)!

习惯了这些代码!昨天,突然有个想法我为什么不把小说抓取下来呢!这想法一出然后感觉

:”哇,程序员还是有点用的啊!“!想好我就整备下载自己现在在看的小说了!《武逆》

       先来张程序截图吧!

说明下:

TestUrl:就是随便一个章节的url

FilTer regex:为正则表达式(所以说是程序员用嘛!这里提供一个获取div的正则表达式 :<div .*?>([\S\s]*?)</div>)

Coding:是网页的编码,本来这个是可以程序里自己获取的,这里偷懒了,就没做,有兴趣的可以加上去

点击Test 会依次弹出 匹配的内容,这里需要记下Index的值,也就是你需要保存的内容代号。

url:网址+书号+/ 以《武逆》为例:http://www.81zw.com/book/7832/

start:开始章节  http://www.81zw.com/book/7832/183341.html 就需要填写 183341

end:结束章节

index:内容代号

点击下载

////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

     这里我本来想做成自动抓取所有的章节链接的,这样就不需要填写那么的东西了。但是考虑到通用性,我还是没那么做!而我现在的这种写法,

依赖每一章节都是连续的。如果不连续会出现很多的无用请求。我看了其他的一些数据,其实也差不对是这样安排的,依章节递增数值,虽然

浪费请求,但是能用!本来是想用异步的,考虑到返回的数据要有顺序,也就没有用(希望有大神可以指导下,既可以异步多线程又可以按请求顺序返回的

方法,这个我真不知道怎么弄,因为不解决这个问题,一点下载UI就阻塞了,界面是没点反应了)。

    代码其实很简单,就不贴出来了,需要的朋友可以下载下来看(文章末尾)。也参考了很多园子里小伙伴们的代码!感谢园子里各位的帮助!

让我们这些菜鸟更快成长。

     源代码

需要交流的可以加我QQ群:

160808140

欢迎大家一起讨论学习。

 

 

 

posted on 2014-04-22 16:57  尘缘曦落  阅读(640)  评论(0编辑  收藏  举报