天晴如许

在网站数据采集和网站分析行业,让数据采集标准化和自动化;由海量日志基于hadoop分析到实时分析;提供Web Analytics工具发挥数据运营威力。

导航

统计

wget递归下载文件

wget是个好东西啊,合理利用能实现太多的功能!

比如递归获取指定目录下的所有文件,可以这么做:

wget -r -nd -np -R "index.html*" http://logforward.hst.ali.dw.alidc.net/th_en_p4p_blender/

 

-c 断点续传,奇怪的是-r递归调用时同时使用该参数会比较慢,估计是没有权限的文件尝试多次的缘故

-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件

-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录

-np 递归下载时不搜索上层目录。如wget -c -r www.xxx.org/pub/path/ 没有加参数-np,就会同时下载path的上一级目录pub下的其它文件 -k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数

-R,  –reject=LIST 分号分隔的不被接受的扩展名的列表。不加这个参数,结果中会包含大量的“index.html”、“index.html?C=D;O=A”、“index.html?C=D;O=D”等文件

-L 递归时不进入其它主机,如wget -c -r www.xxx.org/ 如果网站内有一个这样的链接: www.yyy.org,不加参数-L,就会像大火烧山一样,会递归下载www.yyy.org网站

-p 下载网页所需的所有文件,如图片等

-A 指定要下载的文件样式列表,多个样式用逗号分隔

-i 后面跟一个文件,文件内指明要下载的URL。

-q 该参数表示不输出wget的内容、进度等信息,在脚本处理中需要!

 

更多wget参数用法,参见:

linux系统中wget命令使用指南

wget 命令用法详解

posted on 2011-10-17 16:56  天晴如许  阅读(...)  评论(...编辑  收藏