随笔分类 -  爬虫

爬虫技术点
摘要:HTTPX 特点: + 和使用 requests 一样方便,requests 有的它都有 + 加入 HTTP/1.1 和 HTTP/2 的支持。 + 能够直接向 WSGI 应用程序或 ASGI 应用程序发出请求。 + 到处都有严格的超时设置 + 全类型注释 + 100% 的测试覆盖率 安装 pyth 阅读全文
posted @ 2021-11-25 14:08 Mr-刘 阅读(128) 评论(0) 推荐(0)
摘要:什么是协程? 简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性,所以这种由 程序员自己写程序来管理的轻量级线程又常被称作 "用户空间线程"。 协程比多线程好在哪呢? 线程的控制权在操作系统手中,而 协程的控制权完全掌握在用户自己手中,因此利用协程可 阅读全文
posted @ 2021-11-25 13:59 Mr-刘 阅读(76) 评论(0) 推荐(0)
摘要:1. Selenium 滑块验证:例一 from selenium import webdriver import time,requests from selenium.webdriver.common.action_chains import ActionChains driver = webd 阅读全文
posted @ 2021-03-07 21:12 Mr-刘 阅读(170) 评论(0) 推荐(0)
摘要:1. 程序出现异常抛出,将异常写入文件,继续执行下一条 for key, value in I: # print(value) # 定义临时变量为flase flag = False browser = None try: chrome_opt = webdriver.ChromeOptions() 阅读全文
posted @ 2020-12-06 17:37 Mr-刘 阅读(258) 评论(0) 推荐(0)
摘要:一,爬取比较有权威的网址 1. 出现 2. 表示在请求头中有不识别的数据,明显是无法解析请求头 3. 这是hppt2的请求,作为RFC 描述,Http 请求头不能以分号开头 安装hyper进行解析,因为hyper认识这样的请求头 pip install hyper 4. 修改代码 import re 阅读全文
posted @ 2020-09-11 14:39 Mr-刘 阅读(6921) 评论(1) 推荐(1)
摘要:[TOC] 1. 并发,并行的理解 2. 用代码实现多线程爬虫 阅读全文
posted @ 2020-02-29 12:27 Mr-刘 阅读(418) 评论(0) 推荐(0)
摘要:[TOC] 1. scrapy安装与环境依赖 2. 创建项目等 命令介绍 3. 项目目录介绍 4. 框架scrapy介绍:五大核心组件与数据流向 5. scrapy 爬取科客网站 6. scrapy实现多页爬取 9. scrapy 篡改请求与响应,item丢弃 10. scrapy中间件 分类,作用 阅读全文
posted @ 2020-02-29 12:26 Mr-刘 阅读(456) 评论(0) 推荐(0)
摘要:目录 1. mongo的安装 2. mongo数据库操作 3. Python与Mongo交互 阅读全文
posted @ 2020-02-29 12:15 Mr-刘 阅读(220) 评论(0) 推荐(0)
摘要:##1. selenium介绍 # 介绍: 1.selenium是一个web自动化测试用的框架. 程序员可以通过代码实现对浏览器的控制, 比如打开网页, 点 击网页中的元素, 实现鼠标滚动等操作. 2.它支持多款浏览器, 如谷歌浏览器, 火狐浏览器等等, 当然也支持无头浏览器. # 目的: 在爬取数 阅读全文
posted @ 2020-02-29 12:12 Mr-刘 阅读(657) 评论(0) 推荐(0)
摘要:目录 1. BeautifulSoup库介绍: 2. BeautifulSoup 使用步骤: 3. 选择器分类: 4. CSS选择器: 阅读全文
posted @ 2020-02-29 12:10 Mr-刘 阅读(326) 评论(0) 推荐(0)
摘要:##爬虫数据存入三大文件 import requests import json,csv from lxml import etree for i in range(1,10): if i == 1: url = 'http://www.lnzxzb.cn/gcjyxx/004001/subpage 阅读全文
posted @ 2020-02-29 12:07 Mr-刘 阅读(170) 评论(0) 推荐(0)
摘要:[TOC] 1. Xpath解析库介绍: 2. xpath语法 3. xpath代码演示 4. 豆瓣案例 阅读全文
posted @ 2020-02-29 12:05 Mr-刘 阅读(260) 评论(0) 推荐(0)
摘要:##1. 文件上传功能 #用的少 应用场景(可以当时上传文件) import requests # 定义上传文件数据, 键为file, 值为文件句柄 files = { 'file': open('favicon.ico', 'rb') } #指定网址,指定字段 r = requests.post( 阅读全文
posted @ 2020-02-29 12:02 Mr-刘 阅读(719) 评论(0) 推荐(0)
摘要:[TOC] 1. 第一次爬虫 2. 八大请求方式 3. 请求头简介 4. 反爬与反反爬 5. 常见的状态码 6. 响应头 7. 响应体 8. 网页基础 9. 爬虫工作流 10. 抓包技能操作认识 11. requests 模块请求 12. requests 模块基本使用 13. 代理 IP 阅读全文
posted @ 2020-02-29 11:38 Mr-刘 阅读(261) 评论(0) 推荐(0)
摘要:[TOC] 1. 安装虚拟环境 2. 爬虫概念 3. 爬虫分类 4. 协议模型 5. HTTP协议与HTTP S协议 6. TCP与UDP 协议 7. 服务器常见端口 8. 开发准备 阅读全文
posted @ 2020-02-29 10:56 Mr-刘 阅读(198) 评论(0) 推荐(0)