爬虫 - 随笔分类 - 斜阳红红

BeautifulSoup在HTML或XML中查找指定元素变得简单

摘要：BeautifulSoup BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后遍可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 阅读全文

posted @ 2019-07-15 09:54 斜阳红红

网络爬虫之scrapy框架详解,scrapy框架设置代理

摘要：网络爬虫之scrapy框架详解 twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架，scrapy正是依赖于twisted，它是基于事件循环的异步非阻塞网络框架，可以实现爬虫的并发。 twisted是什么以及和requests的区别： request是一个python 阅读全文

posted @ 2019-05-14 10:33 斜阳红红

scrapy中间件的简介

摘要：中间件的简介 1.中间件的作用在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法配置settings.py.详见scrapy文档 ht 阅读全文

posted @ 2019-05-14 10:31 斜阳红红

爬虫之Xpath详解

摘要：爬虫之Xpath详解 XPath介绍 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的阅读全文

posted @ 2019-05-14 10:31 斜阳红红

scrapy执行流程

摘要：scrapy执行流程整体流程 - 引擎找到要执行的爬虫，并执行爬虫的 start_requests 方法，并的到一个迭代器。- 迭代器循环时会获取Request对象，而request对象中封装了要访问的URL和回调函数。- 将所有的request对象(任务)放到调度器中，用于以后被下载器下载。- 阅读全文

posted @ 2019-05-14 10:30 斜阳红红

爬虫之UserAgent用户代理

摘要：爬虫之UserAgent UserAgent简介 UserAgent中文名为用户代理，是Http协议中的一部分，属于头域的组成部分，UserAgent也简称UA。它是一个特殊字符串头，是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识，用户所访问的阅读全文

posted @ 2019-05-14 10:29 斜阳红红

爬虫之urllib包以及request模块和parse模块,爬虫之urllib.error模块

摘要：爬虫之urllib包以及request模块和parse模块 urllib简介简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: urllib.request 主要用来打开或者读取url urll 阅读全文

posted @ 2019-05-14 10:27 斜阳红红

requests模块

摘要：requests模块 requests Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apac 阅读全文

posted @ 2019-05-14 09:52 斜阳红红

利用爬虫模拟网页微信wechat

摘要：利用爬虫模拟网页微信wechat 1.登录页面，显示二维码当我们打开网页微信时，会看到一个用于扫码登录的二维码，所以我们要模拟该页面给我们的页面也弄一个二维码通过查看网页代码我们发现，这个二维码的标签为这个src属性的最后一段每次访问都是不同的，我们发现每次访问该页面时，会向后端发送请求获得这阅读全文

posted @ 2019-05-14 09:50 斜阳红红

高性能爬虫相关（IO多路复用，异步非阻塞）

摘要：高性能爬虫相关（IO多路复用，异步非阻塞）说到提高性能，我们可以想到的是利用多进程、多线程以及单线程实现并发，由于爬虫爬取信息时IO操作较多，所以利用单线程实现并发是较好的选择爬虫本质上还是建立socket连接，通过http请求获取数据本质： sk = socket() # 阻塞 sk.con 阅读全文

posted @ 2019-05-14 09:49 斜阳红红

scrapy-redisScrapy框架

摘要：Scrapy框架简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates We 阅读全文

posted @ 2019-05-14 09:48 斜阳红红

scrapy-redis

摘要：scrapy-redis scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化下载 pip in 阅读全文

posted @ 2019-05-14 09:43 斜阳红红

随笔分类 - 爬虫