用Teleport Ultra下载网站全部页面 爬虫

测试case,就是把Commons-FileUpload 的API下载来

Snap20
 
上网查的时候我才发现这是一个由很多页面组成的网站,下载起来很麻烦。
Snap26
 
怎么办呢?呵呵,一定是有办法的。Teleport Ultra这个工具就能帮我们搞定!
这是一个汉化绿版的迅雷下载链接:thunder://QUFodHRwOi8vMS5jcWR4MS5jcnNreS5jb20vMjAwOTAzL1RlbGVwb3J0VWx0cmEtdjEuNTlILnppcFpa 大小只有759K。
下载完成后解压缩,直接运行ultra.exe,然后选择 文件-新建项目向导
Snap19
 
第一步这里选择第二项:复制一个网站,包含该网站的目录结构。
Snap27
 
第二步 启始地址填刚才网页的地址:http://commons.apache.org/fileupload/apidocs/index.html
并且指定Teleport的搜索深度为6曾链接。
Snap28
 
为什么填6呢?细心的朋友应该能发现,最深层Package(包)中的Class(类)的链接是http://commons.apache.org/fileupload/apidocs 后6层链接。
Snap29
 
第三步 这里选择网页中媒体,因为是API,我们就直接选择 仅文本。
Snap30
 
第四步 来确定一下,我们刚刚建的项目。这里有提示,点击开始按钮以运行该项目。
Snap31
 
然后,选择一个目录来保存我们刚刚建好的项目,以及网站页面的下载地址。
Snap32
 
点击开始来启动项目吧。
Snap33
 
这是项目进行中,我们能看到,网站结构也被下载到本地。
Snap34
 
底部有显示信息,我们能了解到项目的进行状况。
Snap35
Snap36 
 
下载好的就是这样的,一个Teleport Ultra的.tpu项目文件,还有就是网站的页面目录。
Snap37
Snap38
 
激动人心的时刻到了,去浏览器中访问吧。
Snap39
 
这样一来,不仅仅是Commons-FileUpload的API我们能下载到本地,几乎任何官方API我们都有了办法,JDK,MySQL等等。
现在我们下载的API是页面目录,我会继续努力,争取制作成CHM格式的API文档。
posted @ 2015-12-14 15:58  邱明成  阅读(8424)  评论(0编辑  收藏  举报