Windows下用wget批量下载文件

本记录主要是为了应付下载大量CMIP6数据所写,配合新版数据下载网站ESGF MetaGrid (llnl.gov)和下面的方法,数据下载变得较为容易。

1、下载wgetWindows binaries of GNU Wget (eternallybored.org)工具:亲测1.21.3版64位可稳定使用,下载压缩包后,解压至特定文件夹,然后设置系统路径,以便cmd中能够直接调用从数据网站上获取待下载文件列表

2、将待下载文件列表的下载链接,保存为txt文档。可以采用notepad3 正则表达式匹配处理(比如cmip6网站得到的wget脚本)。

这里记录一下常见的操作:查找以xx开头以xx结尾包含特殊符号需转义的处理方法

正则表达式需转义的字符包括:

. ? + ^ $ | \ / [ ] ( ) { } *

比如我们要搜索以https://开头的并且以.com/结尾的字符串

正则表达式为:

开头字符串.+.结尾字符串

​​​​​​​或者:

开头字符串.+结尾字符串

或者:

开头字符串.*结尾字符串

具体可以参考:关于Notepad++正则表达式匹配查找以xx开头以xx结尾包含特殊符号需转义的处理方法_notepad++正则匹配以开头,以结尾_wh445306的博客-CSDN博客

3 数据下载 :
打开cmd,下载命令代码为:

wget -c  -i 下载数据网址列表文件.txt --http-user=****** --http-passwd=******  -P 下载数据存放文件夹路径

备注:

(1)代码解释:-c是断点续传; -i 表示传入下载文件为包含多个URLs的txt --http-user 下载网站的用户名 --http-passwd 下载网站的密码 -P 保存路径

(2)建议将cmd路径直接切换到保存下载文件的文件夹中,同时将下载文件列表也保存至该文件夹,从而简化命令代码

(3)wget的下载会出现下载不完全的情况,例如一共2000个文件,仅下载了1500个,剩下的500个需要重新用命令代码下载

关于wget命令详细的可以参考:wget命令详解 - 玩转大数据 - 博客园 (cnblogs.com)

posted @ 2023-02-20 10:20  岁时  阅读(986)  评论(0编辑  收藏  举报