摘要: 思路 由于在未登录的情况下,进行搜索商品信息操作,页面会自动跳转到登录界面,所以我们首先要解决自动登录的问题,经过测试发现,通过微博登录比较方便,所以我就通过微博登录了; 登录成功后,搜索相关的商品信息存储到MongoDB中 代码 配置文件 config.py 阅读全文
posted @ 2020-02-01 17:05 我要去巴黎 阅读(802) 评论(0) 推荐(0)
摘要: 爬虫第一步:新建项目 选择合适的位置,执行命令:scrapy startproje xxxx(我的项目名:douban) 爬虫第二步:明确目标 豆瓣电影排行url:https://movie.douban.com/top250?start=0, 分析url后发现srart=后面的数字,以25的步长递 阅读全文
posted @ 2020-01-09 22:51 我要去巴黎 阅读(341) 评论(0) 推荐(0)
摘要: 编写setting.py文件,写好相关的配置就可以运行 配置文件需要修改的并不多,下面 只把需要修改或添加的代码 贴进来 ~~~ 使用scrapy redis的url指纹去重,不使用scrapy默认去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPD 阅读全文
posted @ 2020-01-09 16:51 我要去巴黎 阅读(202) 评论(0) 推荐(0)
摘要: Scrapy框架是什么 Scrapy是用纯Python实现一个为了爬取网站数据、 提取结构性数据 而编写的 应用框架 ,用途十分广泛; 框架的力量 能够让用户只需要开发几个模块就能实现爬虫,用来 爬取网页内容或者图片 ,不用重造轮子,十分方便; Scrapy使用了 Twisted (其主要对手是To 阅读全文
posted @ 2020-01-07 15:59 我要去巴黎 阅读(298) 评论(0) 推荐(0)
摘要: 爬虫第一步:新建项目 选择合适的位置,执行命令: scrapy startproje sinaNews (sinaNews是自定义爬虫项目名称) 成功执行后, 如图 : 爬虫第二步:明确目标 首先打开要爬取的网站:https://news.sina.com.cn/ 在 导航div(main nav) 阅读全文
posted @ 2020-01-07 15:54 我要去巴黎 阅读(204) 评论(0) 推荐(0)