随笔分类 -  爬虫

摘要:一、Scrapy的简介 Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致如下 它主要由五大组件和两中间件组成: 五大组件: 1、引擎(ENGINE):用来处理整个系统的 阅读全文
posted @ 2020-12-23 10:18 NQ31 阅读(352) 评论(0) 推荐(0)
摘要:一、Xpath 注意:xpath中不能出现tbody标签,可以用 // 来跳过这个标签 1、简单使用对象实例化: from lxml import etree# 本地文件: tree = etree.parse('文件名') tree.xpath('xpath表达式') #网络数据: tree = 阅读全文
posted @ 2020-12-19 11:00 NQ31 阅读(169) 评论(0) 推荐(0)
摘要:一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.目前已经开发到4.0以上了 baautiful soup常用的解析器如 阅读全文
posted @ 2020-12-17 21:47 NQ31 阅读(104) 评论(0) 推荐(0)
摘要:一、GET请求 ''' GET请求: 没有请求体 数据不能超过1k 请求的数据会暴露在浏览器的地址栏中 ''' 1、基本的get请求: import requests # 1、基本请求 res=requests.get('http://127.0.0.1:8000/index') print(res 阅读全文
posted @ 2020-12-16 22:48 NQ31 阅读(209) 评论(0) 推荐(0)