随笔档案「2019年1月」 - 洛丶丶丶

爬虫之scrapy-redis

摘要：redis分布式部署 scrapy框架是否可以自己实现分布式？不可以原因有两点基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取实现方式：分布式实现流程：代码如下 1.创建项目和应阅读全文

posted @ 2019-01-16 19:56 洛丶丶丶阅读(224) 评论(0) 推荐(0)

Scrapy框架之CrawlSpider

摘要：提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）简介 CrawlSpider其实是Sp 阅读全文

posted @ 2019-01-16 19:23 洛丶丶丶阅读(180) 评论(0) 推荐(0)

scrapy + selenium 的动态爬虫

摘要：动态爬虫在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也阅读全文

posted @ 2019-01-15 21:51 洛丶丶丶阅读(790) 评论(0) 推荐(0)

请求传参、日志等级和爬虫优化

摘要：请求传参在某些情况下，我们爬取的数据不在同一个页面中，例如，我们爬取一个电影网站，电影的名称，评分在一级页面，而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参案例展示：爬取http://www.55xia.com电影网，将一级页面中的电影名称，名字，评分二级页面中的导演，演员阅读全文

posted @ 2019-01-14 22:16 洛丶丶丶阅读(273) 评论(0) 推荐(0)

scrapy递归解析和post请求

摘要：递归解析递归爬取解析多页页面数据每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。实现方案： 1.将每一个页码对应的url存放到爬虫文件的起始url列表（start_urls）中。（不推荐） 2.使用Reque 阅读全文

posted @ 2019-01-14 21:08 洛丶丶丶阅读(289) 评论(0) 推荐(0)

scrapy的持久化相关

摘要：终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。需求是：将糗百首页中段子的内容和标题进行爬取新建项目流程 settings 文件 qiubai文件编辑内容为执行爬虫应用 * 执行阅读全文

posted @ 2019-01-13 21:59 洛丶丶丶阅读(147) 评论(0) 推荐(0)

scrapy初始和简单应用

摘要：什么是Scrapy 安装基础使用 1.创建项目：scrapy startproject 项目名称项目结构： project_name/ scrapy.cfg： project_name/ __init__.py items.py pipelines.py settings.py spiders/ 阅读全文

posted @ 2019-01-11 21:01 洛丶丶丶阅读(223) 评论(0) 推荐(0)

Fiddler和app抓包

摘要：1：请在“运行”，即下面这个地方输入certmgr.msc并回车，打开证书管理。打开后，请点击操作--查找证书，如下所示：然后输入“fiddler”查找所有相关证书，如下所示：可以看到，我们找到一个，您可能会找到多个，不要紧，有多少个删多少个，全删之后，这一步完成 2：再接下来，打开火狐浏览器阅读全文

posted @ 2019-01-10 22:12 洛丶丶丶阅读(1112) 评论(0) 推荐(0)

爬虫之selenium和PhantomJS

摘要：selenium selenium是什么？环境搭建导包使用 select下拉菜单选择行为链 cookie操作等待 1. 隐式等待 2. 显式等待 js代码执行和窗口切换 ip代理注意：如果是Anaconda3的jupyter的情况，不能直接下载到本地的cpython解释器要在Anaco 阅读全文

posted @ 2019-01-10 21:37 洛丶丶丶阅读(348) 评论(0) 推荐(0)

爬虫之图片懒加载技术及js加密

摘要：图片懒加载图片懒加载概念：图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的阅读全文

posted @ 2019-01-10 17:58 洛丶丶丶阅读(928) 评论(0) 推荐(0)

爬虫之代理、乱码、验证码

摘要：代理爬虫中为什么需要使用代理代理的分类免费代理ip提供网站简单运用示例不受信任的网站例如有些网站的证书不被ca认证的添加verify = False 就可以了。乱码 1. 2. 其他编码可看这里 https://www.cnblogs.com/clbao/articles/11697 阅读全文

posted @ 2019-01-10 17:49 洛丶丶丶阅读(789) 评论(0) 推荐(0)

爬虫之正则和xpath

摘要：一.正解解析常用正则表达式回顾：爬取糗百数据二.xpath解析 xpath介绍 https://www.cnblogs.com/clbao/articles/10803582.html 1.本地文件 2.网络数据测试页面数据 58二手房数据阅读全文

posted @ 2019-01-10 16:48 洛丶丶丶阅读(787) 评论(0) 推荐(0)

爬虫之urllib库

摘要：一.urllib库简介简介 Urllib是Python内置的HTTP请求库。其主要作用就是可以通过代码模拟浏览器发送请求。它包含四个模块：相比Python2与3变化：其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib 阅读全文

posted @ 2019-01-10 16:31 洛丶丶丶阅读(236) 评论(0) 推荐(0)

爬虫之requests模块

摘要：requests模块什么是requests模块 requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位安装 requests库7个主要方法方法说明 requsts.requst() 构造一个请求阅读全文

posted @ 2019-01-10 15:47 洛丶丶丶阅读(191) 评论(0) 推荐(0)

爬虫简介

摘要：python网络爬虫的简单介绍基础储备 # 友情提示： # 了解下 http和https的概念 # python基础 python网络爬虫的简单介绍基础储备基础储备 # 友情提示： # 了解下 http和https的概念 # python基础什么是爬虫爬虫就是通过编写程序模拟浏览器上网阅读全文

posted @ 2019-01-10 15:34 洛丶丶丶阅读(255) 评论(0) 推荐(0)

洛丶丶丶

01 2019 档案

公告