爬虫 - 随笔分类 - zx125

request

摘要：1. 介绍对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法 2. 安装利用 pip 安装 3. 基本请求 3.1 get请求参数是字典，我们也可以传递json类型的参阅读全文

posted @ 2020-05-13 19:14 zx125 阅读(458) 评论(1) 推荐(0)

urllib

摘要：urllib response方法 request方法动态UA post参数 https忽略CA认证的证书（不是CA认证的而是个人的）代理 cookie cookiejar URLError 阅读全文

posted @ 2020-05-10 21:48 zx125 阅读(212) 评论(0) 推荐(0)

b站排行榜-爬虫

摘要：import requests from lxml import etree import re import time import json import threading import urllib3 urllib3.disable_warnings() url = "https://www 阅读全文

posted @ 2020-05-08 09:15 zx125 阅读(459) 评论(0) 推荐(0)

红薯小说

该文被密码保护。

posted @ 2020-01-07 21:22 zx125 阅读(0) 评论(0) 推荐(0)

知乎登录

该文被密码保护。

posted @ 2020-01-07 20:58 zx125 阅读(0) 评论(0) 推荐(0)

拉钩爬虫

摘要：拉钩 ajax请求，cookies反爬阅读全文

posted @ 2020-01-07 17:20 zx125 阅读(181) 评论(0) 推荐(0)

反爬记录

摘要：反爬记录 1.UA伪装 2.封IP 3.font family 4.cookeies 5.验证码 6.referer 7.css:before 8.js混淆 9:加密 10.检查webdriver 11.禁用调试爬虫小知识测试接口信息的链接大型免费代理池 https://github.com/ 阅读全文

posted @ 2020-01-06 21:16 zx125 阅读(145) 评论(0) 推荐(0)

爬虫-requests-html

摘要：文档 https://cncert.github.io/requests html doc cn/ / 安装简单使用 Element 支持js 内部使用的是 pyppeteer 而不是 selenium ，更小众，但是被反爬的概率更小第一次调用会下载一个Chromium 关于使用render的基阅读全文

posted @ 2020-01-05 21:44 zx125 阅读(277) 评论(0) 推荐(0)

天猫爬虫-requests-html

该文被密码保护。

posted @ 2020-01-04 23:31 zx125 阅读(5) 评论(0) 推荐(0)

滑块破解

该文被密码保护。

posted @ 2020-01-03 22:02 zx125 阅读(2) 评论(0) 推荐(0)

pillow

摘要：官方文档 https://pillow.readthedocs.io/en/stable/ 安装图片基本信息常用方法图像转化图像裁剪图片旋转改变图像大小参考链接 https://gitee.com/komavideo/LearnPillow 阅读全文

posted @ 2020-01-03 21:49 zx125 阅读(395) 评论(0) 推荐(0)

京东爬虫

该文被密码保护。

posted @ 2020-01-03 15:36 zx125 阅读(3) 评论(0) 推荐(0)

bs4-mysql-豌豆荚

摘要：爬取豌豆荚排行使用bs4解析数据，并保存到mysql 阅读全文

posted @ 2020-01-01 20:38 zx125 阅读(205) 评论(0) 推荐(0)

代理池-豆瓣电影

摘要：代理池实现了简单的代理池免费ip的获取，并使用有效的ip，进行爬取工作阅读全文

posted @ 2019-12-30 21:27 zx125 阅读(244) 评论(0) 推荐(0)

github登录

摘要：思路测试1 代码阅读全文

posted @ 2019-12-30 21:25 zx125 阅读(2768) 评论(0) 推荐(0)

scrapy请求传参-BOSS反爬

摘要：scrapy请求传参 BOSS反爬思路总结第一次请求就携带cookie，其实他之前有302重定向的如果网络卡的情况下你就会发现，cookie就是这个请求设置的，但是不知道为啥，最开始的请求隐藏掉了首先boss加了反爬是cookies的爬取的内容为职位和职位描述阅读全文

posted @ 2019-09-17 20:18 zx125 阅读(311) 评论(0) 推荐(0)

scrapy 五大核心组件-分页

摘要：scrapy 五大核心组件分页分页思路总的原理和之前是一样的，但是由于框架的原因，要遵循他框架的使用方式，每次更改他的url，并指定回调函数 coding: utf 8 import scrapy class XiaohuanameSpider(scrapy.Spider): name = 阅读全文

posted @ 2019-09-13 11:20 zx125 阅读(213) 评论(0) 推荐(0)

Scrapy持久化存储-爬取数据转义

摘要：Scrapy持久化存储爬虫爬取数据转义问题使用这种格式，会自动帮我们转义 'insert into wen values(%s,%s)',(item['title'],item['content']）基于终端的指令: 只可以将parse方法的返回值存储到本地的文本文件中，支持（json,jso 阅读全文

posted @ 2019-09-11 22:58 zx125 阅读(360) 评论(0) 推荐(0)

scrapy基础

摘要：scrapy介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API 所返回的数据(例如 Ama 阅读全文

posted @ 2019-09-10 20:32 zx125 阅读(168) 评论(0) 推荐(0)

12306模拟登陆-超级鹰

摘要：12306模拟登陆超级鹰什么是超级鹰？就是和云打码类似的验证码识别网站，但是他能识别更复杂的图片验证码模拟登陆12306 主要思路 1.首先登陆到12306界面 2.点击账号密码登录，到账号密码登录模块 3.截取整张界面的图片保存到本地，并获取验证码部分的坐标 4.在界面截图的基础上，根据获阅读全文

posted @ 2019-09-08 21:39 zx125 阅读(584) 评论(0) 推荐(0)

zx125

随笔分类 - 爬虫

公告