01 2018 档案

新浪网分类资讯爬虫

摘要：新浪网分类资讯爬虫,爬取新浪网导航页所有下所有大类、小类、小类里的子链接，以及子链接页面的新闻内容，并将数据下载到本地文件系统存储阅读全文

posted @ 2018-01-22 09:37 DaleyZou 阅读(1015) 评论(0) 推荐(1)

摘要：Scrapy爬取豆瓣电影top250的电影数据、海报，并保存在MySQL中。动态切换User-Agent,动态切换代理IP（ip池需要自己填充），下载延迟2.5秒阅读全文

posted @ 2018-01-21 22:20 DaleyZou 阅读(1839) 评论(0) 推荐(2)

DaleyZou's Blog