摘要: 还是豆瓣top250爬虫的例子,添加下载中间件,主要是设置动态Uesr-Agent和代理IP Scrapy代理IP、Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制,我们在settings.py同级目录下创建middlewares.py文件,包装所有请求。 mi 阅读全文
posted @ 2017-10-30 17:23 YangPython 阅读(1209) 评论(0) 推荐(0) 编辑
摘要: 任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中。 items.py文件 spiders文件 pipelines.py文件 settings.py文件 最终结果: 阅读全文
posted @ 2017-10-30 17:08 YangPython 阅读(10397) 评论(2) 推荐(0) 编辑
摘要: 目标任务:使用requests抓取电影网站信息和下载链接保存到数据库中,然后使用flask做数据展示。 爬取的网站在这里 最终效果如下: 主页: 可以进行搜索:输入水形物语 点击标题进入详情页: 爬虫程序 Flask项目目录如下: 在项目目录下运行如下命令,完成数据库迁移: python manag 阅读全文
posted @ 2017-10-30 13:14 YangPython 阅读(5702) 评论(2) 推荐(1) 编辑