wget递归下载文件
wget是个好东西啊,合理利用能实现太多的功能!
比如递归获取指定目录下的所有文件,可以这么做:
wget -r -nd -np -R "index.html*" http://logforward.hst.ali.dw.alidc.net/th_en_p4p_blender/
-c 断点续传,奇怪的是-r递归调用时同时使用该参数会比较慢,估计是没有权限的文件尝试多次的缘故
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录
-np 递归下载时不搜索上层目录。如wget -c -r www.xxx.org/pub/path/ 没有加参数-np,就会同时下载path的上一级目录pub下的其它文件 -k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-R, –reject=LIST 分号分隔的不被接受的扩展名的列表。不加这个参数,结果中会包含大量的“index.html”、“index.html?C=D;O=A”、“index.html?C=D;O=D”等文件
-L 递归时不进入其它主机,如wget -c -r www.xxx.org/ 如果网站内有一个这样的链接: www.yyy.org,不加参数-L,就会像大火烧山一样,会递归下载www.yyy.org网站
-p 下载网页所需的所有文件,如图片等
-A 指定要下载的文件样式列表,多个样式用逗号分隔
-i 后面跟一个文件,文件内指明要下载的URL。
-q 该参数表示不输出wget的内容、进度等信息,在脚本处理中需要!
更多wget参数用法,参见: