随笔分类 - 爬虫
爬虫技术点
    
摘要:HTTPX 特点: + 和使用 requests 一样方便,requests 有的它都有 + 加入 HTTP/1.1 和 HTTP/2 的支持。 + 能够直接向 WSGI 应用程序或 ASGI 应用程序发出请求。 + 到处都有严格的超时设置 + 全类型注释 + 100% 的测试覆盖率 安装 pyth
        阅读全文
                
摘要:什么是协程? 简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性,所以这种由 程序员自己写程序来管理的轻量级线程又常被称作 "用户空间线程"。 协程比多线程好在哪呢? 线程的控制权在操作系统手中,而 协程的控制权完全掌握在用户自己手中,因此利用协程可
        阅读全文
                
摘要:1. Selenium 滑块验证:例一 from selenium import webdriver import time,requests from selenium.webdriver.common.action_chains import ActionChains driver = webd
        阅读全文
                
摘要:1. 程序出现异常抛出,将异常写入文件,继续执行下一条 for key, value in I: # print(value) # 定义临时变量为flase flag = False browser = None try: chrome_opt = webdriver.ChromeOptions()
        阅读全文
                
摘要:一,爬取比较有权威的网址 1. 出现 2. 表示在请求头中有不识别的数据,明显是无法解析请求头 3. 这是hppt2的请求,作为RFC 描述,Http 请求头不能以分号开头 安装hyper进行解析,因为hyper认识这样的请求头 pip install hyper 4. 修改代码 import re
        阅读全文
                
摘要:[TOC] 1. 并发,并行的理解 2. 用代码实现多线程爬虫
        阅读全文
                
摘要:[TOC] 1. scrapy安装与环境依赖 2. 创建项目等 命令介绍 3. 项目目录介绍 4. 框架scrapy介绍:五大核心组件与数据流向 5. scrapy 爬取科客网站 6. scrapy实现多页爬取 9. scrapy 篡改请求与响应,item丢弃 10. scrapy中间件 分类,作用
        阅读全文
                
摘要:目录 1. mongo的安装 2. mongo数据库操作 3. Python与Mongo交互
        阅读全文
                
摘要:##1. selenium介绍 # 介绍: 1.selenium是一个web自动化测试用的框架. 程序员可以通过代码实现对浏览器的控制, 比如打开网页, 点 击网页中的元素, 实现鼠标滚动等操作. 2.它支持多款浏览器, 如谷歌浏览器, 火狐浏览器等等, 当然也支持无头浏览器. # 目的: 在爬取数
        阅读全文
                
摘要:目录 1. BeautifulSoup库介绍: 2. BeautifulSoup 使用步骤: 3. 选择器分类: 4. CSS选择器:
        阅读全文
                
摘要:##爬虫数据存入三大文件 import requests import json,csv from lxml import etree for i in range(1,10): if i == 1: url = 'http://www.lnzxzb.cn/gcjyxx/004001/subpage
        阅读全文
                
摘要:[TOC] 1. Xpath解析库介绍: 2. xpath语法 3. xpath代码演示 4. 豆瓣案例
        阅读全文
                
摘要:##1. 文件上传功能 #用的少 应用场景(可以当时上传文件) import requests # 定义上传文件数据, 键为file, 值为文件句柄 files = { 'file': open('favicon.ico', 'rb') } #指定网址,指定字段 r = requests.post(
        阅读全文
                
摘要:[TOC] 1. 第一次爬虫 2. 八大请求方式 3. 请求头简介 4. 反爬与反反爬 5. 常见的状态码 6. 响应头 7. 响应体 8. 网页基础 9. 爬虫工作流 10. 抓包技能操作认识 11. requests 模块请求 12. requests 模块基本使用 13. 代理 IP
        阅读全文
                
摘要:[TOC] 1. 安装虚拟环境 2. 爬虫概念 3. 爬虫分类 4. 协议模型 5. HTTP协议与HTTP S协议 6. TCP与UDP 协议 7. 服务器常见端口 8. 开发准备
        阅读全文
                

 浙公网安备 33010602011771号
浙公网安备 33010602011771号