wvs爬虫 目录和文件提取 导出

 1 #!/bin/sh
 2 
 3 fileName=$1
 4 cat ${fileName}|grep 'http://'|awk -F 'URL>' '{print $2}'>file.txt
 5 ##url为目录+文件的列表
 6 awk -F '</' '{print $1}' 'file.txt'>url.txt
 7 ##输出以/结尾的url,其中,\/$代表以/结尾的行,\用于转义。
 8 awk '/\/$/' url.txt >dir.txt
 9 ##!代表取反,输出不以/结尾的行,即文件列表
10 awk '!/\/$/' url.txt >file.txt
11 echo "resultfiles are in currentdir url.txt dir.txt file.txt"

 

posted @ 2015-11-16 17:48  changdd  阅读(475)  评论(0)    收藏  举报