爬虫 - 随笔分类 - NQ31

爬虫之scrapy、scrapy-redis

摘要：一、Scrapy的简介 Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发。整体架构大致如下它主要由五大组件和两中间件组成：五大组件： 1、引擎（ENGINE)：用来处理整个系统的阅读全文

posted @ 2020-12-23 10:18 NQ31 阅读(357) 评论(0) 推荐(0)

爬虫之xpath、selenuim

摘要：一、Xpath 注意：xpath中不能出现tbody标签，可以用 // 来跳过这个标签 1、简单使用对象实例化： from lxml import etree# 本地文件： tree = etree.parse('文件名') tree.xpath('xpath表达式') #网络数据： tree = 阅读全文

posted @ 2020-12-19 11:00 NQ31 阅读(177) 评论(0) 推荐(0)

爬虫之Beautifulsoup模块

摘要：一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.目前已经开发到4.0以上了 baautiful soup常用的解析器如阅读全文

posted @ 2020-12-17 21:47 NQ31 阅读(111) 评论(0) 推荐(0)

爬虫之Reuqests模块使用

摘要：一、GET请求 ''' GET请求：没有请求体数据不能超过1k 请求的数据会暴露在浏览器的地址栏中 ''' 1、基本的get请求： import requests # 1、基本请求 res=requests.get('http://127.0.0.1:8000/index') print(res 阅读全文

posted @ 2020-12-16 22:48 NQ31 阅读(216) 评论(0) 推荐(0)

NQ31

未到终局，焉知生死！

随笔分类 - 爬虫

公告