随笔分类 -  爬虫

BeautifulSoup在HTML或XML中查找指定元素变得简单
摘要:BeautifulSoup BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 阅读全文
posted @ 2019-07-15 09:54 斜阳红红
网络爬虫之scrapy框架详解,scrapy框架设置代理
摘要:网络爬虫之scrapy框架详解 twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发。 twisted是什么以及和requests的区别: request是一个python 阅读全文
posted @ 2019-05-14 10:33 斜阳红红
scrapy中间件的简介
摘要:中间件的简介 1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 ht 阅读全文
posted @ 2019-05-14 10:31 斜阳红红
爬虫之Xpath详解
摘要:爬虫之Xpath详解 XPath介绍 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 因此,对 XPath 的 阅读全文
posted @ 2019-05-14 10:31 斜阳红红
scrapy执行流程
摘要:scrapy执行流程 整体流程 - 引擎找到要执行的爬虫,并执行爬虫的 start_requests 方法,并的到一个 迭代器。- 迭代器循环时会获取Request对象,而request对象中封装了要访问的URL和回调函数。- 将所有的request对象(任务)放到调度器中,用于以后被下载器下载。- 阅读全文
posted @ 2019-05-14 10:30 斜阳红红
爬虫之UserAgent用户代理
摘要:爬虫之UserAgent UserAgent简介 UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的 阅读全文
posted @ 2019-05-14 10:29 斜阳红红
爬虫之urllib包以及request模块和parse模块,爬虫之urllib.error模块
摘要:爬虫之urllib包以及request模块和parse模块 urllib简介 简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: urllib.request 主要用来打开或者读取url urll 阅读全文
posted @ 2019-05-14 10:27 斜阳红红
requests模块
摘要:requests模块 requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apac 阅读全文
posted @ 2019-05-14 09:52 斜阳红红
利用爬虫模拟网页微信wechat
摘要:利用爬虫模拟网页微信wechat 1.登录页面,显示二维码 当我们打开网页微信时,会看到一个用于扫码登录的二维码,所以我们要模拟该页面给我们的页面也弄一个二维码 通过查看网页代码我们发现,这个二维码的标签为 这个src属性的最后一段每次访问都是不同的,我们发现每次访问该页面时,会向后端发送请求获得这 阅读全文
posted @ 2019-05-14 09:50 斜阳红红
高性能爬虫相关(IO多路复用,异步非阻塞)
摘要:高性能爬虫相关(IO多路复用,异步非阻塞) 说到提高性能,我们可以想到的是利用多进程、多线程以及单线程实现并发,由于爬虫爬取信息时IO操作较多,所以利用单线程实现并发是较好的选择 爬虫本质上还是建立socket连接,通过http请求获取数据 本质: sk = socket() # 阻塞 sk.con 阅读全文
posted @ 2019-05-14 09:49 斜阳红红
scrapy-redisScrapy框架
摘要:Scrapy框架 简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates We 阅读全文
posted @ 2019-05-14 09:48 斜阳红红
scrapy-redis
摘要:scrapy-redis scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 下载 pip in 阅读全文
posted @ 2019-05-14 09:43 斜阳红红