我要去巴黎

2020年2月1日

摘要：思路由于在未登录的情况下，进行搜索商品信息操作，页面会自动跳转到登录界面，所以我们首先要解决自动登录的问题，经过测试发现，通过微博登录比较方便，所以我就通过微博登录了；登录成功后，搜索相关的商品信息存储到MongoDB中代码配置文件 config.py 阅读全文

posted @ 2020-02-01 17:05 我要去巴黎阅读(813) 评论(0) 推荐(0)

2020年1月9日

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库

摘要：爬虫第一步：新建项目选择合适的位置，执行命令：scrapy startproje xxxx（我的项目名：douban）爬虫第二步：明确目标豆瓣电影排行url：https://movie.douban.com/top250?start=0，分析url后发现srart=后面的数字，以25的步长递阅读全文

posted @ 2020-01-09 22:51 我要去巴黎阅读(350) 评论(0) 推荐(0)

构造分布式Scrapy_redis爬虫，爬取新浪新闻sina整站的新闻文章-day2

摘要：编写setting.py文件，写好相关的配置就可以运行配置文件需要修改的并不多，下面只把需要修改或添加的代码贴进来 ~~~ 使用scrapy redis的url指纹去重，不使用scrapy默认去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPD 阅读全文

posted @ 2020-01-09 16:51 我要去巴黎阅读(203) 评论(0) 推荐(0)

2020年1月7日

初识Scrapy框架，scrapy框架的基本组成和工作原理，爬虫平台的搭建

摘要： Scrapy框架是什么 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途十分广泛；框架的力量能够让用户只需要开发几个模块就能实现爬虫，用来爬取网页内容或者图片，不用重造轮子，十分方便； Scrapy使用了 Twisted （其主要对手是To 阅读全文

posted @ 2020-01-07 15:59 我要去巴黎阅读(308) 评论(0) 推荐(0)

构造分布式Scrapy_redis爬虫，爬取新浪新闻sina整站的新闻文章-day1

摘要：爬虫第一步：新建项目选择合适的位置，执行命令： scrapy startproje sinaNews （sinaNews是自定义爬虫项目名称）成功执行后，如图：爬虫第二步：明确目标首先打开要爬取的网站：https://news.sina.com.cn/ 在导航div（main nav）阅读全文

posted @ 2020-01-07 15:54 我要去巴黎阅读(217) 评论(0) 推荐(0)

公告