会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
我要去巴黎
博客园
首页
新随笔
联系
订阅
管理
2020年2月1日
Selenium+Chrome实现淘宝自动登录和商品信息的爬取
摘要: 思路 由于在未登录的情况下,进行搜索商品信息操作,页面会自动跳转到登录界面,所以我们首先要解决自动登录的问题,经过测试发现,通过微博登录比较方便,所以我就通过微博登录了; 登录成功后,搜索相关的商品信息存储到MongoDB中 代码 配置文件 config.py
阅读全文
posted @ 2020-02-01 17:05 我要去巴黎
阅读(802)
评论(0)
推荐(0)
2020年1月9日
用Scrapy爬虫爬取豆瓣电影排行榜数据,存储到Mongodb数据库
摘要: 爬虫第一步:新建项目 选择合适的位置,执行命令:scrapy startproje xxxx(我的项目名:douban) 爬虫第二步:明确目标 豆瓣电影排行url:https://movie.douban.com/top250?start=0, 分析url后发现srart=后面的数字,以25的步长递
阅读全文
posted @ 2020-01-09 22:51 我要去巴黎
阅读(341)
评论(0)
推荐(0)
构造分布式Scrapy_redis爬虫,爬取新浪新闻sina整站的新闻文章-day2
摘要: 编写setting.py文件,写好相关的配置就可以运行 配置文件需要修改的并不多,下面 只把需要修改或添加的代码 贴进来 ~~~ 使用scrapy redis的url指纹去重,不使用scrapy默认去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPD
阅读全文
posted @ 2020-01-09 16:51 我要去巴黎
阅读(202)
评论(0)
推荐(0)
2020年1月7日
初识Scrapy框架,scrapy框架的基本组成和工作原理,爬虫平台的搭建
摘要: Scrapy框架是什么 Scrapy是用纯Python实现一个为了爬取网站数据、 提取结构性数据 而编写的 应用框架 ,用途十分广泛; 框架的力量 能够让用户只需要开发几个模块就能实现爬虫,用来 爬取网页内容或者图片 ,不用重造轮子,十分方便; Scrapy使用了 Twisted (其主要对手是To
阅读全文
posted @ 2020-01-07 15:59 我要去巴黎
阅读(298)
评论(0)
推荐(0)
构造分布式Scrapy_redis爬虫,爬取新浪新闻sina整站的新闻文章-day1
摘要: 爬虫第一步:新建项目 选择合适的位置,执行命令: scrapy startproje sinaNews (sinaNews是自定义爬虫项目名称) 成功执行后, 如图 : 爬虫第二步:明确目标 首先打开要爬取的网站:https://news.sina.com.cn/ 在 导航div(main nav)
阅读全文
posted @ 2020-01-07 15:54 我要去巴黎
阅读(204)
评论(0)
推荐(0)
公告