会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
林木子
博客园
首页
新随笔
联系
订阅
管理
2017年4月16日
python_crawler,批量下载文件
摘要: 这个第一个python3网络爬虫,参考书籍是《python网络数据采集》。该爬虫的主要功能是爬取某个网站,并将.rar,.doc,.docx,.zip文件批量下载。 后期将要改进的是,用后缀名来识别并下载文件,但面对大数据量的网站,需要用到BloomFilter,再者还需要了解网站的反爬虫机制。 #
阅读全文
posted @ 2017-04-16 16:59 林木子
阅读(1405)
评论(2)
推荐(0)
公告