会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
博客园
首页
新随笔
管理
2018年5月15日
shell爬虫--抓取某在线文档所有页面
摘要: 在线教程一般像流水线一样,页面有上一页下一页的按钮,因此,可以利用shell写一个爬虫读取下一页链接地址,配合wget将教程所有内容抓取。 以postgresql中文网为例。下面是实例代码 说明: 1、URL 要下载的html文件路径 2、sURL html文件的相对路径 3、FULLURL sUR
阅读全文
posted @ 2018-05-15 17:01 sherlock-merlin
阅读(1775)
评论(0)
推荐(0)
编辑