随笔档案「2017年4月16日」：python_crawler,批量下载文件 ... - 林木子

2017年4月16日

摘要：这个第一个python3网络爬虫，参考书籍是《python网络数据采集》。该爬虫的主要功能是爬取某个网站，并将.rar，.doc,.docx,.zip文件批量下载。后期将要改进的是，用后缀名来识别并下载文件，但面对大数据量的网站，需要用到BloomFilter，再者还需要了解网站的反爬虫机制。 # 阅读全文

posted @ 2017-04-16 16:59 林木子阅读(1410) 评论(2) 推荐(0)

林木子

公告