01 2019 档案

摘要:redis分布式部署 scrapy框架是否可以自己实现分布式? 不可以原因有两点 基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取 实现方式: 分布式实现流程: 代码如下 1.创建项目和应 阅读全文
posted @ 2019-01-16 19:56 洛丶丶丶 阅读(224) 评论(0) 推荐(0)
摘要:提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) 简介 CrawlSpider其实是Sp 阅读全文
posted @ 2019-01-16 19:23 洛丶丶丶 阅读(180) 评论(0) 推荐(0)
摘要:动态爬虫 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也 阅读全文
posted @ 2019-01-15 21:51 洛丶丶丶 阅读(790) 评论(0) 推荐(0)
摘要:请求传参 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参 案例展示:爬取http://www.55xia.com电影网,将一级页面中的电影名称,名字,评分 二级页面中的导演,演员 阅读全文
posted @ 2019-01-14 22:16 洛丶丶丶 阅读(273) 评论(0) 推荐(0)
摘要:递归解析 递归爬取解析多页页面数据 每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。 实现方案: 1.将每一个页码对应的url存放到爬虫文件的起始url列表(start_urls)中。(不推荐) 2.使用Reque 阅读全文
posted @ 2019-01-14 21:08 洛丶丶丶 阅读(289) 评论(0) 推荐(0)
摘要:终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 需求是:将糗百首页中段子的内容和标题进行爬取 新建项目流程 settings 文件 qiubai文件编辑内容为 执行爬虫应用 * 执行 阅读全文
posted @ 2019-01-13 21:59 洛丶丶丶 阅读(147) 评论(0) 推荐(0)
摘要:什么是Scrapy 安装 基础使用 1.创建项目:scrapy startproject 项目名称 项目结构: project_name/ scrapy.cfg: project_name/ __init__.py items.py pipelines.py settings.py spiders/ 阅读全文
posted @ 2019-01-11 21:01 洛丶丶丶 阅读(223) 评论(0) 推荐(0)
摘要:1:请在“运行”,即下面这个地方输入certmgr.msc并回车,打开证书管理。 打开后,请点击操作--查找证书,如下所示: 然后输入“fiddler”查找所有相关证书,如下所示: 可以看到,我们找到一个,您可能会找到多个,不要紧,有多少个删多少个,全删之后,这一步完成 2:再接下来,打开火狐浏览器 阅读全文
posted @ 2019-01-10 22:12 洛丶丶丶 阅读(1112) 评论(0) 推荐(0)
摘要:selenium selenium是什么? 环境搭建 导包 使用 select下拉菜单选择 行为链 cookie操作 等待 1. 隐式等待 2. 显式等待 js代码执行和窗口切换 ip代理 注意:如果是Anaconda3的jupyter的情况,不能直接下载到本地的cpython解释器 要在Anaco 阅读全文
posted @ 2019-01-10 21:37 洛丶丶丶 阅读(348) 评论(0) 推荐(0)
摘要:图片懒加载 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的 阅读全文
posted @ 2019-01-10 17:58 洛丶丶丶 阅读(928) 评论(0) 推荐(0)
摘要:代理 爬虫中为什么需要使用代理 代理的分类 免费代理ip提供网站 简单运用示例 不受信任的网站 例如有些网站的证书不被ca认证的 添加verify = False 就可以了。 乱码 1. 2. 其他编码可看这里 https://www.cnblogs.com/clbao/articles/11697 阅读全文
posted @ 2019-01-10 17:49 洛丶丶丶 阅读(789) 评论(0) 推荐(0)
摘要:一.正解解析 常用正则表达式回顾: 爬取糗百数据 二.xpath解析 xpath介绍 https://www.cnblogs.com/clbao/articles/10803582.html 1.本地文件 2.网络数据 测试页面数据 58二手房数据 阅读全文
posted @ 2019-01-10 16:48 洛丶丶丶 阅读(787) 评论(0) 推荐(0)
摘要:一.urllib库简介 简介 Urllib是Python内置的HTTP请求库。其主要作用就是可以通过代码模拟浏览器发送请求。它包含四个模块: 相比Python2与3变化: 其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib 阅读全文
posted @ 2019-01-10 16:31 洛丶丶丶 阅读(236) 评论(0) 推荐(0)
摘要:requests模块 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位 安装 requests库7个主要方法 方法说明 requsts.requst() 构造一个请求 阅读全文
posted @ 2019-01-10 15:47 洛丶丶丶 阅读(191) 评论(0) 推荐(0)
摘要:python网络爬虫的简单介绍 基础储备 # 友情提示 : # 了解下 http和https的概念 # python基础 python网络爬虫的简单介绍 基础储备 基础储备 # 友情提示 : # 了解下 http和https的概念 # python基础 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网 阅读全文
posted @ 2019-01-10 15:34 洛丶丶丶 阅读(255) 评论(0) 推荐(0)